Question 1

Was ist eine robots.txt Datei?

Accepted Answer

Eine robots.txt ist eine Textdatei im Root-Verzeichnis einer Website (z.B. example.com/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche der Website gecrawlt und indexiert werden dürfen. Die Datei verwendet das Robots Exclusion Protocol mit Direktiven wie User-agent, Disallow, Allow und Sitemap.

Question 2

Wie prüfe ich ob meine robots.txt korrekt ist?

Accepted Answer

Domain-URL oben eingeben und auf Prüfen klicken. Das Tool lädt die robots.txt automatisch und analysiert Syntax, Crawler-Regeln und AI-Bot-Zugriff. Alternativ kann der Inhalt direkt eingefügt oder die Datei hochgeladen werden.

Question 3

Können AI-Bots wie ChatGPT über die robots.txt blockiert werden?

Accepted Answer

Ja. OpenAIs GPTBot, Anthropics ClaudeBot, Perplexitys PerplexityBot und Googles Google-Extended können alle über die robots.txt blockiert werden. Diese Bots respektieren die robots.txt freiwillig. Mit User-agent: GPTBot gefolgt von Disallow: / wird ChatGPTs Crawler blockiert.

Question 4

Was bedeutet Disallow: /?

Accepted Answer

Disallow: / blockiert einen Crawler vollständig von der gesamten Website. Wenn dies für User-agent: * oder speziell für Googlebot gesetzt ist, kann Google die Website nicht crawlen und indexieren. Das ist ein kritischer SEO-Fehler der sofort behoben werden muss.

Question 5

Was ist der Unterschied zwischen Disallow und noindex?

Accepted Answer

Disallow verhindert das Crawlen, aber nicht zwingend die Indexierung. Google kann eine URL trotzdem indexieren wenn andere Seiten darauf verlinken. Das noindex Meta-Tag erfordert dass die Seite erst gecrawlt wird. Für zuverlässige Nicht-Indexierung beides kombinieren: Crawlen erlauben aber noindex setzen.

Question 6

Beeinflusst die robots.txt das Google-Ranking?

Accepted Answer

Indirekt ja. Das Blockieren wichtiger Seiten verhindert deren Indexierung und entfernt sie aus den Suchergebnissen. Das Blockieren von Google-Extended hat keinen Einfluss auf klassische Google-Rankings, verhindert aber die Aufnahme in Google AI Overviews. Ein fehlender Sitemap-Eintrag kann die Crawl-Effizienz bei großen Websites reduzieren.

Question 7

Wie ist die korrekte robots.txt Syntax?

Accepted Answer

Einfacher Text, eine Direktive pro Zeile. Blöcke beginnen mit User-agent: gefolgt von Disallow: und optional Allow: Regeln. Pfade sind case-sensitiv. Ein leeres Disallow: bedeutet alles erlaubt. Sitemap: deklariert die Sitemap-URL. Kommentare beginnen mit #.

Question 8

Wo muss die robots.txt abgelegt werden?

Accepted Answer

Die Datei muss im Root-Verzeichnis der Domain liegen, erreichbar unter https://deinedomain.de/robots.txt. Sie kann nicht in einem Unterverzeichnis abgelegt werden. Sie muss mit HTTP-Status 200 und Content-Type text/plain ausgeliefert werden. Subdomains benötigen eine eigene robots.txt.

Question 9

Sollte ich Bytespider in der robots.txt blockieren?

Accepted Answer

Für die meisten Websites ist das Blockieren von Bytespider (ByteDance/TikTok AI-Crawler) ein sinnvoller Standard. Er hat die geringste Transparenz aller großen AI-Crawler, keine veröffentlichten IP-Bereiche, kein Produkt das Quellen mit Links darstellt und wurde mit aggressivem Crawling-Verhalten beobachtet.

robots.txt Validator & Tester

robots.txt Validator: Vollständige Regelanalyse

Was geprüft wird:

So nutzt du diesen robots.txt Checker

Korrekte robots.txt Syntax

robots.txt und AI-Crawler

Häufig gestellte Fragen

Verwandte Tools

Weiterführende Guides