Im SEJ ist ein feiner Artikel erschienen, in dem zu lesen ist, dass Google inoffiziell die noindex-Anweisung in der robots.txt akzeptiert. Ein weiterer einfacher Weg neben dem Metatag, eine Seite nicht von Google indexieren zu lassen.
noindex in der robots.txt
Das klingt spannend. Um das Indexieren einer Seite zu verhindern, konnte man bisher einfach folgenden Metatag in den Header aufnehmen:
<meta name=”robots” content=”noindex” />
So einfach ging es bisher. Und so einfach wird es auch bleiben. Aber laut dem SEJ reicht nun auch eine Anweisung in der robots.txt, um Seiten von der Indexierung auszuschließen:
User-agent: Googlebot
Noindex: /impressum
Coole Sache, wie ich finde. Jetzt stelle ich mir nur die Frage, wenn zum Beispiel das Impressum das Metatag robots das Attribut “index” trägt, aber genau diese Seite in der robots.txt mit noindex ausgewiesen ist, was passiert nun? Wird die Seite indexiert oder nicht? Das bedarf wohl einiger Tests…
Der Artikel auf dem SEJ trägt den Titel “Bot Herding: The Ultimate Tool for PageRank Sculpting” und ist auch abseits dieser Informationen absolut lesenswert. Das Thema follow / nofollow wird hier ebenfalls in einer interessanten Art und Weise angeschnitten und es wird erläutert, wieso man eben nicht per Metatag “nofollow” nutzen sollte. Stichwort Dangling Links.
Moin Markus,
ist es nicht so, dass der Bot sich erst die robots.txt zieht um zu sehen, was er indizieren darf oder was nicht.
Sieht er in der robots.txt, dass das Impressum in diesem Fall nicht indizieren darf, geht er auch nicht zum Impressum, oder? Von daher ist es egal, was in den Meta-Infos steht.
Grüße
Marc
Hi Marc,
es ist richtig, dass der Bot zuerst in die robots.txt schaut. Da er aber nicht explizit “ausgesperrt” wird, geht er vielleicht auch zum Impressum?
Markus
Also in den Webmaster Tools gibt es auf jedenfall ein Konflikt und die Seite kommt erstmal nicht in den Index. Jedenfalls nach meinen erfahrugnen.