Eine der Standards im Internet ist die robots.txt welches zu jedem Webprojekt gehört. Hier besteht die Möglichkeit zu steuern welcher Such Robot was darf. Mit der robot.txt zeigen wir welche Projektverzeichnisse ausgelesen werden dürfen und welche nicht. In der Regel halten sich auch die Robots der Suchmaschinen an die Vorgaben.
Wichtige Angaben stehen in der robots.txt und eine Kleinigkeit kann den Verlust der indizierten Seiten verursachen. So ist es mir passiert. Ich nutzte eine ausführliche Art des Aufbaus wie ihr hier sehen könnt:
User-agent: *
Sitemap: https://blogger-world.de/sitemap.xml
# Verbietet alle Files in diesem Verzeichnis
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wp-content/plugins/
Allow: /wp-content/uploads/
# Erlaubt dem Google Image Bot nach allen Bildern zu suchen
User-agent: Googlebot-Image
Allow: /*
# Erlaubt dem Adsense Bot den Zugriff
User-agent: Mediapartners-Google*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
Wichtig ist bei mir der Eintrag
User-agent: *
Sitemap: https://blogger-world.de/sitemap.xml
Denn da habe ich den fatalen Fehler gemacht. Eine Sitemap das Wichtigste um einer Suchmaschine zu sagen was es neues gibt. Ihr könnt ja gerne mal schauen was passiert wenn ihr https://blogger-world.de/sitemap.xml in eurem Browser aufruft. Fehler beim Laden des Stylesheets: Ein unbekannter Fehler ist aufgetreten (805303f4). Jawohl genau das ist passiert, denn meine Domain ist zwar unter der www.blogger-world.de auch erreichbar. Aber nicht das benötigte Stylesheet für die Sitemap.
Aussehen muss sie also genau so: https://blogger-world.de/sitemap.xml und da sieht man auch schon alles. Solltet ihr euch also wundern warum die Indizierten Seiten von über 1.300 auf 400 fallen dann kann genau das die Lösung sein. Bei Google™ gibt man ja die Sitemap an wo sie liegt, doch andere Suchmaschinen richten sich nach der robots.txt und genau dann hat man Pech gehabt.
Habt ihr auch immer im Blick ob alles sauber läuft außerhalb der Webmastertools von Google™? Wie prüft ihr solche Dinge? Was prüft ihr alles und wie oft? Ist es für euch egal ob mit www oder ohne? Bereinigt ihr auch eure robots.txt oder nehmt ihr die Standard wie ich sie gerade nutze?
realloc
Ich wollte heute auch schon was zu robots.txt loswerden. Das kann ich mir ja jetzt sparen 😉
Ich habe bei mir festgestellt, dass die von WordPress generierte robots.txt ein UTF-8 BOM enthielt, was dazu führte, dass die Datei einfach unbrauchbar war.
Als nächstes werden standardmäßig auch keine Inhalte in /wp-content und /wp-admin geregelt, was eventuell dazu führt, dass Google in den Webmaster Tools entsprechende Files für die Geschwindigkeitsprüfung nutzt.
Wirklich seltsam!