robots.txt - Cheat Sheet “SEO for Wordpress”

Die robots.txt wird im zweiten der elf Schritte in meinem Cheat Sheet “SEO for WordPress” behandelt. Das Erstellen ist eigentlich ganz einfach, der Inhalt der robots.txt ist jedoch entscheidend.

Erstellen einer robots.txt

Hierfür ist es notwendig, eine Dateil namens “robots.txt” zu erstellen und ins Root-Verzeichnis der Domain zu legen. Die Bots der Suchmaschinen sollten diese Datei als Anlaufstelle nehmen, welcher Content der Domain indexiert werden darf und welcher nicht. Zusätzlich kann man den Suchmaschinen mit einem Meta-Tag mitteilen, wo die robots.txt liegt bzw. dass es eine gibt:

<meta name="siteinfo" content="robots.txt" />

Inhalt der robots.txt

So, jetzt wird es spannend. Hier gilt es nun festzulegen, welcher Content indexiert werden darf und welcher nicht.

Standard: Alles oder nichts indexieren:

robots.txt Inhalt, um die Indexierung vom kompletten Content zu erlauben:
```
User-agent: *
Disallow:
```
robots.txt Inhalt, um die Indexierung komplett zu verbieten:
```
User-agent: *
Disallow: /
```

Diese Vorgaben gelten für alle Suchmaschinen.

Speziell: Für verschiedene Bots verschiedenes erlauben

Hier sind den Möglichkeiten prinzipiell keine Grenzen gesetzt. Man kann in die robots.txt Vorgaben für verschiedene Suchmaschinen definieren, einzelne Verzeichnisse, Seiten oder Dateien ausschließen. Oder das Ganze auch explzit andersrum: Das Crawlen von Verzeichnissen, Seiten oder Dateien erlauben. Auch ist die Nutzung von Wildcards möglich, das erspart einen Haufen Arbeit und hält die robots.txt klein.

Das alles gibt es übersichtlich zum Nachlesen im großen robots.txt-Tutorial.

robots.txt für WordPress

Meine Empfehlung für einen WordPress Blog sieht so aus:

User-agent: *

Disallow: */feed/
Disallow: */trackback/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/

Das macht Sinn: Denn die Bots sollten keine Feed-URLs indexieren sowie keine Trackback-URLs. Diese haben im Index nichts verloren. Gerade bei Feed-URLs kam es in der Vergangenheit zu Duplicate Content im Google Index. Im schlimmsten Fall waren die Artikel-Feeds im Index, die Artikel selbst jedoch nicht.

Hier könnte man auch noch etwas weiter gehen und die Archiv-Seiten oder Paged-Seiten von der Indexierung ausschließen. Dieses Vorgehen ist unter Bloggern recht weit verbreitet. Ich rate jedoch davon ab, da man auch die Archiv-Seiten sehr gut für die interne Verlinkung benutzen kann. Hier hilft oft schon die Vergabe eines individuellen Titels sowie einer individuellen Beschreibung, und die Archiv-Seite kommt in den Index. Schon hat man wieder einen Link mehr für die einzelnen Artikel.

Wer seine robots.txt nicht selber mit Inhalten möchte, kann dies sehr gut mit dem robots.txt-Generator tun.

Wie schon erwähnt: Hier ist Vorsicht geboten. Falsche Angaben in der robots.txt waren schon oft der Grund, wieso ganze Domains nicht indexiert wurden. Man sollte sich wirklich über die Auswirkungen jeder Zeile bewusst sein, die man in seine robots.txt schreibt.

Hint: In die robots.txt kann man auch den Ort der XML-Sitemap eintragen.

robots.txt – Cheat Sheet “SEO for WordPress”