Syntax prüfen, Crawler-Regeln validieren, AI-Bot-Zugriff analysieren und URLs testen – kostenlos, kein Account nötig
robots.txt hier ablegen
oder klicken um auszuwählenErhalte eine Benachrichtigung wenn neue Tools erscheinen.
Eine robots.txt kann syntaktisch korrekt sein und trotzdem Fehler enthalten. Falsch gesetzte Disallow-Regeln die wichtige Seiten blockieren, fehlende Sitemap-Einträge oder AI-Bots mit unbeabsichtigtem Zugriff sind häufige Probleme, die nur eine vollständige Regelanalyse aufdeckt. Dieser Validator prüft alles – nicht nur die Syntax.
Dissalow oder user agent werden als Warnungen markiert.Disallow: / für Googlebot oder User-agent: * wird als kritischer Fehler markiert, der deine gesamte Website für Suchmaschinen sperrt.Domain-URL eingeben (z.B. https://example.de) und das Tool lädt und validiert die robots.txt automatisch. Alternativ kann der Inhalt direkt in das Textfeld eingefügt oder die Datei hochgeladen werden. Die Validierung läuft vollständig im Browser – keine Daten werden an einen Server gesendet.
Eine gültige robots.txt verwendet einfachen Text mit einer Direktive pro Zeile. Jeder Block beginnt mit User-agent: gefolgt von Disallow: und optional Allow: Regeln. Direktiven-Namen sind case-insensitiv, Pfade jedoch case-sensitiv.
Seit 2023 haben die großen KI-Plattformen eigene Crawler für Training und Suche eingeführt. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot und Google-Extended respektieren die robots.txt freiwillig. Die Frage welche AI-Crawler Zugriff auf deine Inhalte haben, ist heute eine wichtige strategische Entscheidung – mit direkten Auswirkungen auf KI-Sichtbarkeit, Training-Datenbeteiligung und Referral-Traffic.
PerplexityBot lohnt sich besonders zu erlauben: Perplexity zitiert Quellen mit klickbaren Links in jeder Antwort und ist damit der AI-Crawler mit dem höchsten direkten Traffic-Potenzial. Google-Extended bestimmt ob deine Inhalte in Google AI Overviews erscheinen. GPTBot und ClaudeBot beeinflussen deine Präsenz in ChatGPT- und Claude-Antworten, verlinken aber selten direkt zurück.
Eine robots.txt ist eine Textdatei im Root-Verzeichnis einer Website (z.B. example.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche gecrawlt werden dürfen. Sie verwendet das Robots Exclusion Protocol mit Direktiven wie User-agent, Disallow, Allow und Sitemap.
Domain-URL oben eingeben und auf Prüfen klicken. Das Tool lädt die robots.txt automatisch und analysiert Syntax, Crawler-Regeln und AI-Bot-Zugriff. Alternativ Inhalt direkt einfügen oder Datei hochladen. Das Ergebnis erscheint sofort mit Score, Fehlern, Warnungen und einer AI-Bot-Übersichtstabelle.
Ja. OpenAIs GPTBot, Anthropics ClaudeBot, Perplexitys PerplexityBot und Googles Google-Extended respektieren alle die robots.txt. Mit User-agent: GPTBot gefolgt von Disallow: / wird ChatGPT blockiert. Diese Bots respektieren dies freiwillig – eine rechtliche Absicherung ersetzt es nicht.
Disallow: / blockiert einen Crawler vollständig von der gesamten Website. Wenn für User-agent: * oder speziell für Googlebot gesetzt, kann Google die Website nicht crawlen oder indexieren. Das ist ein kritischer SEO-Fehler der sofort behoben werden muss. Der Validator markiert dies als kritischen Fehler.
Disallow verhindert das Crawlen, garantiert aber keine Nicht-Indexierung. Google kann eine URL trotzdem indexieren wenn andere Seiten darauf verlinken. Das noindex Meta-Tag verhindert die Indexierung, erfordert aber dass die Seite erst gecrawlt wird. Für zuverlässige Nicht-Indexierung beides kombinieren: Crawlen erlauben, noindex setzen.
Indirekt ja. Das Blockieren wichtiger Seiten verhindert ihre Indexierung und entfernt sie aus den Suchergebnissen. Das Blockieren von Google-Extended hat keinen Einfluss auf klassische Google-Rankings, verhindert aber die Aufnahme in Google AI Overviews. Ein fehlender Sitemap-Eintrag kann die Crawl-Effizienz bei großen Websites reduzieren.
Einfacher Text, eine Direktive pro Zeile. Blöcke beginnen mit User-agent: gefolgt von Disallow: und optional Allow:. Pfade sind case-sensitiv. Ein leeres Disallow: bedeutet alles erlaubt. Sitemap: deklariert die Sitemap-URL. Kommentare beginnen mit #.
Im Root-Verzeichnis der Domain, erreichbar unter https://deinedomain.de/robots.txt. Nicht in einem Unterverzeichnis. Muss mit HTTP-Status 200 und text/plain Content-Type ausgeliefert werden. Subdomains benötigen eine eigene robots.txt.
Für die meisten Websites ist das Blockieren von Bytespider (ByteDance/TikTok AI-Crawler) ein sinnvoller Standard. Keine veröffentlichten IP-Bereiche, begrenzte Dokumentation, kein Produkt das Quellen mit Links darstellt und aggressives Crawling-Verhalten. Mit User-agent: Bytespider und Disallow: / blockieren.