robots.txt Validator & Tester

Syntax prüfen, Crawler-Regeln validieren, AI-Bot-Zugriff analysieren und URLs testen – kostenlos, kein Account nötig

📄

robots.txt hier ablegen

oder klicken um auszuwählen

robots.txt Validator: Vollständige Regelanalyse

Eine robots.txt kann syntaktisch korrekt sein und trotzdem Fehler enthalten. Falsch gesetzte Disallow-Regeln die wichtige Seiten blockieren, fehlende Sitemap-Einträge oder AI-Bots mit unbeabsichtigtem Zugriff sind häufige Probleme, die nur eine vollständige Regelanalyse aufdeckt. Dieser Validator prüft alles – nicht nur die Syntax.

Was geprüft wird:

  • Syntax und Struktur: Jede Zeile wird auf gültige Direktiven geprüft. Unbekannte oder falsch geschriebene Direktiven wie Dissalow oder user agent werden als Warnungen markiert.
  • User-agent-Blöcke: Vollständige Analyse aller User-agent-Gruppen – welche Bots erlaubt, welche blockiert, welche teilweise eingeschränkt sind.
  • AI-Bot-Kontrolle: Spezifische Auswertung für GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Amazonbot, Applebot-Extended und Bytespider – auf einen Blick welche AI-Crawler Zugriff haben.
  • Sitemap-Deklaration: Fehlende Sitemap-Einträge werden erkannt. Google empfiehlt die Deklaration aller Sitemaps in der robots.txt für effizienteres Crawling.
  • Kritische Regeln: Disallow: / für Googlebot oder User-agent: * wird als kritischer Fehler markiert, der deine gesamte Website für Suchmaschinen sperrt.
  • Doppelte Blöcke: Mehrfache User-agent-Blöcke für denselben Bot werden erkannt – manche Crawler werten nur den ersten Block aus.
  • URL-Tester: Nach der Validierung kann jede URL gegen die geladenen Regeln getestet werden – für jeden User-agent separat, inklusive aller großen AI-Crawler.

So nutzt du diesen robots.txt Checker

Domain-URL eingeben (z.B. https://example.de) und das Tool lädt und validiert die robots.txt automatisch. Alternativ kann der Inhalt direkt in das Textfeld eingefügt oder die Datei hochgeladen werden. Die Validierung läuft vollständig im Browser – keine Daten werden an einen Server gesendet.

Korrekte robots.txt Syntax

Eine gültige robots.txt verwendet einfachen Text mit einer Direktive pro Zeile. Jeder Block beginnt mit User-agent: gefolgt von Disallow: und optional Allow: Regeln. Direktiven-Namen sind case-insensitiv, Pfade jedoch case-sensitiv.

# Alle Crawler erlaubt User-agent: * Disallow: Sitemap: https://example.de/sitemap.xml # ChatGPT Training-Crawler blockieren User-agent: GPTBot Disallow: / # Admin-Bereich für alle Bots sperren User-agent: * Disallow: /admin/ Disallow: /private/

robots.txt und AI-Crawler

Seit 2023 haben die großen KI-Plattformen eigene Crawler für Training und Suche eingeführt. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot und Google-Extended respektieren die robots.txt freiwillig. Die Frage welche AI-Crawler Zugriff auf deine Inhalte haben, ist heute eine wichtige strategische Entscheidung – mit direkten Auswirkungen auf KI-Sichtbarkeit, Training-Datenbeteiligung und Referral-Traffic.

PerplexityBot lohnt sich besonders zu erlauben: Perplexity zitiert Quellen mit klickbaren Links in jeder Antwort und ist damit der AI-Crawler mit dem höchsten direkten Traffic-Potenzial. Google-Extended bestimmt ob deine Inhalte in Google AI Overviews erscheinen. GPTBot und ClaudeBot beeinflussen deine Präsenz in ChatGPT- und Claude-Antworten, verlinken aber selten direkt zurück.

Häufig gestellte Fragen

Was ist eine robots.txt Datei?+

Eine robots.txt ist eine Textdatei im Root-Verzeichnis einer Website (z.B. example.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche gecrawlt werden dürfen. Sie verwendet das Robots Exclusion Protocol mit Direktiven wie User-agent, Disallow, Allow und Sitemap.

Wie prüfe ich ob meine robots.txt korrekt ist?+

Domain-URL oben eingeben und auf Prüfen klicken. Das Tool lädt die robots.txt automatisch und analysiert Syntax, Crawler-Regeln und AI-Bot-Zugriff. Alternativ Inhalt direkt einfügen oder Datei hochladen. Das Ergebnis erscheint sofort mit Score, Fehlern, Warnungen und einer AI-Bot-Übersichtstabelle.

Können AI-Bots wie ChatGPT über die robots.txt blockiert werden?+

Ja. OpenAIs GPTBot, Anthropics ClaudeBot, Perplexitys PerplexityBot und Googles Google-Extended respektieren alle die robots.txt. Mit User-agent: GPTBot gefolgt von Disallow: / wird ChatGPT blockiert. Diese Bots respektieren dies freiwillig – eine rechtliche Absicherung ersetzt es nicht.

Was bedeutet Disallow: /?+

Disallow: / blockiert einen Crawler vollständig von der gesamten Website. Wenn für User-agent: * oder speziell für Googlebot gesetzt, kann Google die Website nicht crawlen oder indexieren. Das ist ein kritischer SEO-Fehler der sofort behoben werden muss. Der Validator markiert dies als kritischen Fehler.

Was ist der Unterschied zwischen Disallow und noindex?+

Disallow verhindert das Crawlen, garantiert aber keine Nicht-Indexierung. Google kann eine URL trotzdem indexieren wenn andere Seiten darauf verlinken. Das noindex Meta-Tag verhindert die Indexierung, erfordert aber dass die Seite erst gecrawlt wird. Für zuverlässige Nicht-Indexierung beides kombinieren: Crawlen erlauben, noindex setzen.

Beeinflusst die robots.txt das Google-Ranking?+

Indirekt ja. Das Blockieren wichtiger Seiten verhindert ihre Indexierung und entfernt sie aus den Suchergebnissen. Das Blockieren von Google-Extended hat keinen Einfluss auf klassische Google-Rankings, verhindert aber die Aufnahme in Google AI Overviews. Ein fehlender Sitemap-Eintrag kann die Crawl-Effizienz bei großen Websites reduzieren.

Wie ist die korrekte robots.txt Syntax?+

Einfacher Text, eine Direktive pro Zeile. Blöcke beginnen mit User-agent: gefolgt von Disallow: und optional Allow:. Pfade sind case-sensitiv. Ein leeres Disallow: bedeutet alles erlaubt. Sitemap: deklariert die Sitemap-URL. Kommentare beginnen mit #.

Wo muss die robots.txt abgelegt werden?+

Im Root-Verzeichnis der Domain, erreichbar unter https://deinedomain.de/robots.txt. Nicht in einem Unterverzeichnis. Muss mit HTTP-Status 200 und text/plain Content-Type ausgeliefert werden. Subdomains benötigen eine eigene robots.txt.

Sollte ich Bytespider in der robots.txt blockieren?+

Für die meisten Websites ist das Blockieren von Bytespider (ByteDance/TikTok AI-Crawler) ein sinnvoller Standard. Keine veröffentlichten IP-Bereiche, begrenzte Dokumentation, kein Produkt das Quellen mit Links darstellt und aggressives Crawling-Verhalten. Mit User-agent: Bytespider und Disallow: / blockieren.

Verwandte Tools

robots.txt Generator
robots.txt einfach erstellen
Sitemap Validator
Sitemap auf Fehler und Struktur prüfen
Sitemap Generator
XML-Sitemaps automatisch generieren

Weiterführende Guides

robots.txt für AI-Crawler
Der komplette Schritt-für-Schritt Guide
AI-Crawler Vergleich 2026
GPTBot, ClaudeBot, PerplexityBot, Google-Extended im Vergleich