Robots.txt ist eine einfache Textdatei, die im Root-Verzeichnis einer Website hinterlegt wird und Suchmaschinen-Crawlern (Bots) Anweisungen gibt, welche Bereiche der Website sie crawlen und indexieren dürfen oder nicht. Durch die robots.txt-Datei können Website-Betreiber die Aktivität von Suchmaschinen auf ihrer Seite kontrollieren, ohne hierfür die eigentlichen Inhalte oder Strukturen auf der Seite ändern zu müssen.
Eine typische robots.txt-Datei besteht aus sogenannten „User-agent“- und „Disallow“-Direktiven:
Beispiel einer einfachen robots.txt:
User-agent: *
Disallow: /admin/
Disallow: /private-info/
Diese Anweisungen bedeuten, dass alle Suchmaschinen-Crawler (User-agent: *) weder das Verzeichnis /admin/ noch /private-info/ crawlen sollen.
Weitere Direktiven und Beispiele:
Beispiel:
User-agent: *
Disallow: /intern/
Allow: /intern/blog/
Sitemap: https://www.beispielseite.de/sitemap.xml
Hier wird das Verzeichnis /intern/ gesperrt, mit Ausnahme des Unterverzeichnisses /intern/blog/, das explizit erlaubt wird. Zusätzlich wird auf die Sitemap verwiesen.
Die robots.txt-Datei ist ein wichtiges Instrument zur Kontrolle des Crawl-Verhaltens von Suchmaschinen. Richtig eingesetzt, trägt sie dazu bei, die Indexierung relevanter Inhalte sicherzustellen, Ressourcen zu schonen und unerwünschte Seiten aus den Suchergebnissen fernzuhalten. Dennoch sollte man sich bewusst sein, dass die robots.txt lediglich eine Anweisung ist, an die sich seriöse Crawler halten – der wirksamste Schutz sensibler Inhalte erfolgt durch Zugangsbeschränkungen, Noindex-Tags oder Passwörter.