Grundlagen: Was ist die robots.txt?
Die robots.txt ist eine einfache Textdatei die im Stammverzeichnis (Root) deiner Website liegt — also unter example.com/robots.txt. Sie enthält Anweisungen für Web-Crawler welche Bereiche der Website gecrawlt werden dürfen und welche nicht.
Das Protokoll dahinter heißt Robots Exclusion Protocol und ist seit den frühen 1990er Jahren ein informeller Standard im Web. Alle seriösen Crawler — von Googlebot bis GPTBot — respektieren diese Datei.
Wichtig: Die robots.txt ist eine Empfehlung, kein technisches Hindernis. Seriöse Crawler wie GPTBot und Googlebot halten sich daran. Bösartige Bots und Scraper ignorieren sie in der Regel. Für wirkliche Zugriffssperren braucht es serverseitige Maßnahmen wie Firewall-Regeln.
Aufbau einer robots.txt
Eine robots.txt besteht aus sogenannten Blöcken. Jeder Block beginnt mit einer User-agent-Zeile die angibt für welchen Crawler die folgenden Regeln gelten, gefolgt von einer oder mehreren Disallow- oder Allow-Zeilen.
Das Sternchen (*) als User-agent steht für alle Crawler. Ein leeres Disallow (Disallow:) bedeutet dass alles erlaubt ist. Disallow: / sperrt die gesamte Website für den angegebenen Crawler.
Alle wichtigen AI-Crawler im Überblick
Diese AI-Crawler solltest du kennen und gezielt in der robots.txt steuern:
| Crawler | Plattform | User-Agent | Zweck |
|---|---|---|---|
| GPTBot | ChatGPT (OpenAI) | GPTBot | Training & Wissensaktualisierung |
| ClaudeBot | Claude (Anthropic) | ClaudeBot | Kontextverständnis & Antworten |
| PerplexityBot | Perplexity AI | PerplexityBot | Faktenbasierte Suche mit Quellen |
| Google-Extended | Gemini (Google) | Google-Extended | Gemini & AI Overviews |
| Amazonbot | Alexa (Amazon) | Amazonbot | Amazon KI-Produkte |
| Applebot-Extended | Siri (Apple) | Applebot-Extended | Apple Intelligence |
Schritt 1: robots.txt prüfen
Existiert deine robots.txt?
Öffne deinen Browser und rufe deinedomain.de/robots.txt auf. Du solltest eine Textdatei sehen. Wenn du einen 404-Fehler erhältst, hat deine Website keine robots.txt — das ist nicht ideal aber auch kein Notfall, da Crawler ohne robots.txt standardmäßig alles crawlen dürfen.
Ist die Datei vorhanden, kopiere den gesamten Inhalt — du wirst ihn im nächsten Schritt analysieren.
Schritt 2: Zustand analysieren
Sind AI-Crawler erlaubt oder blockiert?
Suche in deiner robots.txt nach folgenden Mustern die AI-Crawler blockieren:
Kritisch — AI-Crawler vollständig gesperrt:
Achtung — möglicherweise unbeabsichtigt: Wenn deine robots.txt von einem CMS oder Plugin generiert wurde, kann es sein dass AI-Crawler ohne dein Wissen gesperrt sind. Prüfe die Datei auch wenn du meinst alles sei korrekt konfiguriert.
Schritt 3: AI-Crawler konfigurieren
Entscheide welche Strategie für dich passt
Es gibt drei grundsätzliche Ansätze — je nach Geschäftsmodell und Inhalt:
Strategie A: Alle AI-Crawler vollständig erlauben
Empfohlen für öffentliche Websites die in KI-Antworten zitiert werden möchten. Maximale KI-Sichtbarkeit.
Strategie B: AI-Crawler selektiv erlauben
Empfohlen wenn du bestimmte Bereiche (z.B. Mitgliederbereich, Admin) schützen möchtest aber öffentliche Inhalte crawlbar halten willst.
Strategie C: AI-Crawler gezielt blockieren
Empfohlen wenn du nicht möchtest dass deine Inhalte für KI-Training verwendet werden, aber Googlebot weiterhin crawlen soll.
Schritt 4: Sitemap eintragen
Sitemap-Link in der robots.txt
Die robots.txt ist der ideale Ort um Crawlern den Weg zur Sitemap zu zeigen. Füge am Ende der Datei eine Sitemap-Zeile ein — das ist eine der einfachsten Maßnahmen um sicherzustellen dass alle wichtigen Seiten deiner Website gecrawlt werden.
Wenn du noch keine Sitemap hast, erstelle sie zunächst mit dem Sitemap Generator. Eine fehlende Sitemap bedeutet dass Crawler nur die Seiten finden die intern verlinkt sind — das kann dazu führen dass wichtige Unterseiten nie gecrawlt werden.
Schritt 5: Testen und validieren
robots.txt auf Fehler prüfen
Nach jeder Änderung an der robots.txt solltest du sie validieren. Syntaxfehler können dazu führen dass die gesamte Datei von Crawlern ignoriert wird.
- robots.txt Validator — Prüft Syntax, AI-Crawler-Konfiguration und Sitemap-Link auf ai-ready-check.de
- Google Search Console — Unter "Crawling" → "robots.txt-Tester" kannst du testen ob Googlebot bestimmte URLs crawlen darf
- Direktes Aufrufen — Öffne deinedomain.de/robots.txt im Browser und prüfe ob der Inhalt korrekt angezeigt wird
Tipp: Nach einer Änderung an der robots.txt dauert es einige Stunden bis Tage bis Crawler die neue Version einlesen. Dringende Korrekturen (z.B. versehentliche Sperrung) können durch einen Eintrag in der Google Search Console beschleunigt werden.
Fertige Vorlagen für jeden Anwendungsfall
Vorlage: Standard-Website (maximale Sichtbarkeit)
Vorlage: WordPress-Website
Vorlage: E-Commerce (Shop mit Mitgliederbereich)
Vorlage: Inhalte schützen, aber öffentlich bleiben
Die 5 häufigsten Fehler
Fehler 1: Alle Bots versehentlich gesperrt
"Disallow: /" für User-agent * sperrt nicht nur Spam-Bots sondern auch Googlebot, GPTBot und alle anderen seriösen Crawler. Die Website verschwindet aus allen Suchmaschinen und KI-Antworten. Dieser Fehler passiert oft wenn Entwickler eine Website während der Entwicklung sperren und die Sperre vergessen zu entfernen.
Fehler 2: Syntaxfehler durch falsche Formatierung
Leerzeichen am Anfang einer Zeile, fehlende Zeilenumbrüche zwischen Blöcken oder Windows-Zeilenenden (CRLF statt LF) können dazu führen dass Teile der robots.txt ignoriert werden. Die Datei muss als reiner UTF-8-Text ohne BOM gespeichert werden.
Fehler 3: Sitemap-Link fehlt oder ist falsch
Ein fehlender oder falscher Sitemap-Link bedeutet dass Crawler nur die Seiten finden die direkt verlinkt sind. Tiefe Unterseiten und neue Inhalte werden möglicherweise nie gecrawlt. Überprüfe ob der Sitemap-Link korrekt ist und die Sitemap tatsächlich unter der angegebenen URL erreichbar ist.
Fehler 4: Relative statt absolute Pfade bei der Sitemap
Die Sitemap-URL muss absolut angegeben werden — also mit https:// und dem vollständigen Domainnamen. Ein relativer Pfad wie "Sitemap: /sitemap.xml" wird von einigen Crawlern nicht korrekt interpretiert.
Fehler 5: Crawl-Delay zu hoch gesetzt
Ein zu hoher Crawl-Delay-Wert (z.B. "Crawl-delay: 3600") kann dazu führen dass Crawler nur sehr wenige Seiten pro Tag besuchen. Das ist selten nötig und verlangsamt die Indexierung erheblich. Für die meisten Websites ist kein Crawl-Delay nötig.
- robots.txt ist unter deinedomain.de/robots.txt erreichbar
- Kein "Disallow: /" für User-agent * ohne bewusste Entscheidung
- GPTBot, ClaudeBot und PerplexityBot sind entsprechend der eigenen Strategie konfiguriert
- Sitemap-Link mit vollständiger URL am Ende der Datei eingetragen
- Datei als UTF-8 ohne BOM gespeichert
- Syntax mit Validator geprüft
- Nach Änderungen in Google Search Console neu einlesen lassen
robots.txt automatisch prüfen lassen
Der AI-Ready Check analysiert deine robots.txt und zeigt in Sekunden ob GPTBot, ClaudeBot und PerplexityBot Zugriff haben — und was du verbessern kannst.
Jetzt kostenlos testen →