Robots.txt: Steuern Sie das Crawling Ihrer Website gezielt

Robots.txt

Robots.txt ist eine einfache Textdatei, die im Root-Verzeichnis einer Website hinterlegt wird und Suchmaschinen-Crawlern (Bots) Anweisungen gibt, welche Bereiche der Website sie crawlen und indexieren dürfen oder nicht. Durch die robots.txt-Datei können Website-Betreiber die Aktivität von Suchmaschinen auf ihrer Seite kontrollieren, ohne hierfür die eigentlichen Inhalte oder Strukturen auf der Seite ändern zu müssen.

Signo Media Wissensdatenbank mit Fokus auf die Nutzung und Optimierung der robots.txt-Datei zur Steuerung des Website-Crawlings

Funktion und Bedeutung der robots.txt

  1. Zugriffskontrolle für Crawler:
    Die robots.txt wird genutzt, um Suchmaschinen mitzuteilen, welche Verzeichnisse, Dateien oder Inhalte sie auslassen sollen. Typische Beispiele sind interne Test-Seiten, Adminbereiche, Ressourcenordner (z. B. /images/, /css/) oder bestimmte Skripte, die nicht im Index erscheinen sollen.
  2. Sicherheit und Datenschutz:
    Zwar bietet die robots.txt keinen echten Schutz vor unbefugtem Zugriff (denn jeder kann sie einsehen), dennoch ist es sinnvoll, manche Bereiche vor Suchmaschinencrawls auszuschließen, um die Gefahr zu minimieren, dass sensible Daten unabsichtlich im Suchindex auftauchen.
  3. Ressourcenschonung:
    Indem man Crawler von irrelevanten oder voluminösen Bereichen fernhält, spart man Server-Ressourcen und stellt sicher, dass Suchmaschinen-Roboter ihre Crawl-Budgets auf wichtige Inhalte konzentrieren.
  4. Keine direkte Index-Verhinderung:
    Es ist wichtig zu verstehen, dass ein Eintrag in der robots.txt zwar das Crawlen, nicht aber unbedingt das Indexieren verhindert. Eine bereits bekannte URL kann trotzdem im Index erscheinen, auch wenn sie via robots.txt gesperrt ist. Um Inhalte wirklich von der Indexierung auszuschließen, sind andere Maßnahmen wie das „noindex“-Meta-Tag oder Passwörter / Zugriffsbeschränkungen sinnvoll.

Aufbau und Syntax der robots.txt

Eine typische robots.txt-Datei besteht aus sogenannten „User-agent“- und „Disallow“-Direktiven:

  • User-agent: Legt fest, für welchen Crawler (z. B. Googlebot, Bingbot) die folgenden Regeln gelten. Mit User-agent: * gelten die Regeln für alle Crawler.
  • Disallow: Gibt an, welche URLs bzw. Verzeichnisse ein Crawler nicht besuchen soll.

Beispiel einer einfachen robots.txt:

User-agent: *

Disallow: /admin/

Disallow: /private-info/

Diese Anweisungen bedeuten, dass alle Suchmaschinen-Crawler (User-agent: *) weder das Verzeichnis /admin/ noch /private-info/ crawlen sollen.

Weitere Direktiven und Beispiele:

  • Allow: Wird bei komplexeren Setups genutzt, um trotz vorangehender Einschränkungen bestimmte Unterverzeichnisse oder Dateien explizit freizugeben.
  • Sitemap-Hinweis: Viele Website-Betreiber fügen am Ende der robots.txt einen Verweis auf ihre XML-Sitemap an. Dadurch erfahren Suchmaschinen direkt, wo sie eine komplette Inhaltsübersicht finden.

Beispiel:

User-agent: *

Disallow: /intern/

 

Allow: /intern/blog/

 

Sitemap: https://www.beispielseite.de/sitemap.xml

Hier wird das Verzeichnis /intern/ gesperrt, mit Ausnahme des Unterverzeichnisses /intern/blog/, das explizit erlaubt wird. Zusätzlich wird auf die Sitemap verwiesen.

Best Practices für die robots.txt

  1. Regelmäßige Überprüfung:
    Änderungen an der Seitenstruktur oder neue Verzeichnisse erfordern eine Anpassung der robots.txt. Regelmäßige Checks verhindern, dass wichtige Bereiche versehentlich blockiert werden.
  2. Vorsicht beim Blockieren von CSS- und JS-Dateien:
    Suchmaschinen analysieren auch das visuelle Erscheinungsbild und die Funktionalität einer Seite. Werden wichtige Ressourcen wie CSS oder JavaScript blockiert, erschwert dies das Verständnis des Seitenlayouts für den Crawler und kann sich negativ auf das Ranking auswirken.
  3. Kein Geheimversteck:
    Alles, was in der robots.txt erwähnt ist, kann von jedem eingesehen werden, der die URL www.beispielseite.de/robots.txt aufruft. Keine sensiblen Daten oder geheime URLs preisgeben, um nicht ungewollt Aufmerksamkeit zu erregen.
  4. Tests mit Tools:
    Google Search Console und andere Webmaster-Tools bieten Funktionen, um zu überprüfen, wie die robots.txt gelesen und interpretiert wird. Diese Tests helfen Fehler zu vermeiden und sicherzustellen, dass die gewünschten Bereiche korrekt gesperrt oder freigegeben sind.

Fazit

Die robots.txt-Datei ist ein wichtiges Instrument zur Kontrolle des Crawl-Verhaltens von Suchmaschinen. Richtig eingesetzt, trägt sie dazu bei, die Indexierung relevanter Inhalte sicherzustellen, Ressourcen zu schonen und unerwünschte Seiten aus den Suchergebnissen fernzuhalten. Dennoch sollte man sich bewusst sein, dass die robots.txt lediglich eine Anweisung ist, an die sich seriöse Crawler halten – der wirksamste Schutz sensibler Inhalte erfolgt durch Zugangsbeschränkungen, Noindex-Tags oder Passwörter.