robots.txt für AI-Crawler: Der komplette Guide

Die robots.txt ist die erste und wichtigste Stellschraube für KI-Sichtbarkeit. Ob GPTBot, ClaudeBot oder PerplexityBot deine Website crawlen dürfen, entscheidet sich hier — oft ohne dass Website-Betreiber es wissen. Dieser Guide zeigt Schritt für Schritt wie du deine robots.txt korrekt konfigurierst.

Grundlagen: Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei die im Stammverzeichnis (Root) deiner Website liegt — also unter example.com/robots.txt. Sie enthält Anweisungen für Web-Crawler welche Bereiche der Website gecrawlt werden dürfen und welche nicht.

Das Protokoll dahinter heißt Robots Exclusion Protocol und ist seit den frühen 1990er Jahren ein informeller Standard im Web. Alle seriösen Crawler — von Googlebot bis GPTBot — respektieren diese Datei.

Wichtig: Die robots.txt ist eine Empfehlung, kein technisches Hindernis. Seriöse Crawler wie GPTBot und Googlebot halten sich daran. Bösartige Bots und Scraper ignorieren sie in der Regel. Für wirkliche Zugriffssperren braucht es serverseitige Maßnahmen wie Firewall-Regeln.

Aufbau einer robots.txt

Eine robots.txt besteht aus sogenannten Blöcken. Jeder Block beginnt mit einer User-agent-Zeile die angibt für welchen Crawler die folgenden Regeln gelten, gefolgt von einer oder mehreren Disallow- oder Allow-Zeilen.

# Kommentar — wird von Crawlern ignoriert User-agent: [Name des Crawlers] Disallow: [Pfad der gesperrt wird] Allow: [Pfad der explizit erlaubt wird] Sitemap: https://example.com/sitemap.xml

Das Sternchen (*) als User-agent steht für alle Crawler. Ein leeres Disallow (Disallow:) bedeutet dass alles erlaubt ist. Disallow: / sperrt die gesamte Website für den angegebenen Crawler.

Alle wichtigen AI-Crawler im Überblick

Diese AI-Crawler solltest du kennen und gezielt in der robots.txt steuern:

Crawler Plattform User-Agent Zweck
GPTBot ChatGPT (OpenAI) GPTBot Training & Wissensaktualisierung
ClaudeBot Claude (Anthropic) ClaudeBot Kontextverständnis & Antworten
PerplexityBot Perplexity AI PerplexityBot Faktenbasierte Suche mit Quellen
Google-Extended Gemini (Google) Google-Extended Gemini & AI Overviews
Amazonbot Alexa (Amazon) Amazonbot Amazon KI-Produkte
Applebot-Extended Siri (Apple) Applebot-Extended Apple Intelligence

Schritt 1: robots.txt prüfen

1

Existiert deine robots.txt?

Öffne deinen Browser und rufe deinedomain.de/robots.txt auf. Du solltest eine Textdatei sehen. Wenn du einen 404-Fehler erhältst, hat deine Website keine robots.txt — das ist nicht ideal aber auch kein Notfall, da Crawler ohne robots.txt standardmäßig alles crawlen dürfen.

Ist die Datei vorhanden, kopiere den gesamten Inhalt — du wirst ihn im nächsten Schritt analysieren.

Schritt 2: Zustand analysieren

2

Sind AI-Crawler erlaubt oder blockiert?

Suche in deiner robots.txt nach folgenden Mustern die AI-Crawler blockieren:

Kritisch — AI-Crawler vollständig gesperrt:

# PROBLEM: Sperrt ALLE Bots inkl. aller AI-Crawler User-agent: * Disallow: /
# PROBLEM: Sperrt GPTBot explizit User-agent: GPTBot Disallow: /

Achtung — möglicherweise unbeabsichtigt: Wenn deine robots.txt von einem CMS oder Plugin generiert wurde, kann es sein dass AI-Crawler ohne dein Wissen gesperrt sind. Prüfe die Datei auch wenn du meinst alles sei korrekt konfiguriert.

Schritt 3: AI-Crawler konfigurieren

3

Entscheide welche Strategie für dich passt

Es gibt drei grundsätzliche Ansätze — je nach Geschäftsmodell und Inhalt:

Strategie A: Alle AI-Crawler vollständig erlauben

Empfohlen für öffentliche Websites die in KI-Antworten zitiert werden möchten. Maximale KI-Sichtbarkeit.

# Alle Crawler erlaubt — maximale KI-Sichtbarkeit User-agent: * Disallow: Sitemap: https://deinedomain.de/sitemap.xml

Strategie B: AI-Crawler selektiv erlauben

Empfohlen wenn du bestimmte Bereiche (z.B. Mitgliederbereich, Admin) schützen möchtest aber öffentliche Inhalte crawlbar halten willst.

# Öffentliche Inhalte crawlbar, geschützte Bereiche gesperrt User-agent: * Disallow: /admin/ Disallow: /members/ Disallow: /api/ Disallow: /wp-admin/ Sitemap: https://deinedomain.de/sitemap.xml

Strategie C: AI-Crawler gezielt blockieren

Empfohlen wenn du nicht möchtest dass deine Inhalte für KI-Training verwendet werden, aber Googlebot weiterhin crawlen soll.

# AI-Crawler blockiert, Googlebot erlaubt User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / # Googlebot weiterhin erlaubt User-agent: * Disallow: Sitemap: https://deinedomain.de/sitemap.xml

Schritt 4: Sitemap eintragen

4

Sitemap-Link in der robots.txt

Die robots.txt ist der ideale Ort um Crawlern den Weg zur Sitemap zu zeigen. Füge am Ende der Datei eine Sitemap-Zeile ein — das ist eine der einfachsten Maßnahmen um sicherzustellen dass alle wichtigen Seiten deiner Website gecrawlt werden.

# Sitemap-Link am Ende der robots.txt Sitemap: https://deinedomain.de/sitemap.xml # Bei mehreren Sitemaps — alle eintragen Sitemap: https://deinedomain.de/sitemap-pages.xml Sitemap: https://deinedomain.de/sitemap-blog.xml

Wenn du noch keine Sitemap hast, erstelle sie zunächst mit dem Sitemap Generator. Eine fehlende Sitemap bedeutet dass Crawler nur die Seiten finden die intern verlinkt sind — das kann dazu führen dass wichtige Unterseiten nie gecrawlt werden.

Schritt 5: Testen und validieren

5

robots.txt auf Fehler prüfen

Nach jeder Änderung an der robots.txt solltest du sie validieren. Syntaxfehler können dazu führen dass die gesamte Datei von Crawlern ignoriert wird.

  • robots.txt Validator — Prüft Syntax, AI-Crawler-Konfiguration und Sitemap-Link auf ai-ready-check.de
  • Google Search Console — Unter "Crawling" → "robots.txt-Tester" kannst du testen ob Googlebot bestimmte URLs crawlen darf
  • Direktes Aufrufen — Öffne deinedomain.de/robots.txt im Browser und prüfe ob der Inhalt korrekt angezeigt wird

Tipp: Nach einer Änderung an der robots.txt dauert es einige Stunden bis Tage bis Crawler die neue Version einlesen. Dringende Korrekturen (z.B. versehentliche Sperrung) können durch einen Eintrag in der Google Search Console beschleunigt werden.

Fertige Vorlagen für jeden Anwendungsfall

Vorlage: Standard-Website (maximale Sichtbarkeit)

User-agent: * Disallow: Sitemap: https://deinedomain.de/sitemap.xml

Vorlage: WordPress-Website

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-login.php Allow: /wp-admin/admin-ajax.php Sitemap: https://deinedomain.de/sitemap.xml

Vorlage: E-Commerce (Shop mit Mitgliederbereich)

User-agent: * Disallow: /konto/ Disallow: /warenkorb/ Disallow: /kasse/ Disallow: /bestellungen/ Disallow: /admin/ Sitemap: https://deinedomain.de/sitemap.xml

Vorlage: Inhalte schützen, aber öffentlich bleiben

# AI-Training blockieren, Suche erlauben User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / # Google-Suche weiterhin erlaubt User-agent: * Disallow: Sitemap: https://deinedomain.de/sitemap.xml

Die 5 häufigsten Fehler

Fehler 1: Alle Bots versehentlich gesperrt

"Disallow: /" für User-agent * sperrt nicht nur Spam-Bots sondern auch Googlebot, GPTBot und alle anderen seriösen Crawler. Die Website verschwindet aus allen Suchmaschinen und KI-Antworten. Dieser Fehler passiert oft wenn Entwickler eine Website während der Entwicklung sperren und die Sperre vergessen zu entfernen.

Fehler 2: Syntaxfehler durch falsche Formatierung

Leerzeichen am Anfang einer Zeile, fehlende Zeilenumbrüche zwischen Blöcken oder Windows-Zeilenenden (CRLF statt LF) können dazu führen dass Teile der robots.txt ignoriert werden. Die Datei muss als reiner UTF-8-Text ohne BOM gespeichert werden.

Fehler 3: Sitemap-Link fehlt oder ist falsch

Ein fehlender oder falscher Sitemap-Link bedeutet dass Crawler nur die Seiten finden die direkt verlinkt sind. Tiefe Unterseiten und neue Inhalte werden möglicherweise nie gecrawlt. Überprüfe ob der Sitemap-Link korrekt ist und die Sitemap tatsächlich unter der angegebenen URL erreichbar ist.

Fehler 4: Relative statt absolute Pfade bei der Sitemap

Die Sitemap-URL muss absolut angegeben werden — also mit https:// und dem vollständigen Domainnamen. Ein relativer Pfad wie "Sitemap: /sitemap.xml" wird von einigen Crawlern nicht korrekt interpretiert.

Fehler 5: Crawl-Delay zu hoch gesetzt

Ein zu hoher Crawl-Delay-Wert (z.B. "Crawl-delay: 3600") kann dazu führen dass Crawler nur sehr wenige Seiten pro Tag besuchen. Das ist selten nötig und verlangsamt die Indexierung erheblich. Für die meisten Websites ist kein Crawl-Delay nötig.

  • robots.txt ist unter deinedomain.de/robots.txt erreichbar
  • Kein "Disallow: /" für User-agent * ohne bewusste Entscheidung
  • GPTBot, ClaudeBot und PerplexityBot sind entsprechend der eigenen Strategie konfiguriert
  • Sitemap-Link mit vollständiger URL am Ende der Datei eingetragen
  • Datei als UTF-8 ohne BOM gespeichert
  • Syntax mit Validator geprüft
  • Nach Änderungen in Google Search Console neu einlesen lassen

robots.txt automatisch prüfen lassen

Der AI-Ready Check analysiert deine robots.txt und zeigt in Sekunden ob GPTBot, ClaudeBot und PerplexityBot Zugriff haben — und was du verbessern kannst.

Jetzt kostenlos testen →

Häufig gestellte Fragen

Was passiert wenn ich keine robots.txt habe?+

Ohne robots.txt dürfen alle Crawler standardmäßig die gesamte Website crawlen. Das ist für die meisten öffentlichen Websites in Ordnung. Empfehlenswert ist es trotzdem eine robots.txt anzulegen — zumindest um den Sitemap-Link für Crawler bereitzustellen und Admin-Bereiche zu schützen.

Kann ich einzelne Seiten für AI-Crawler sperren?+

Ja — mit "Disallow: /pfad-zur-seite/" kannst du einzelne URLs oder ganze Verzeichnisse für AI-Crawler sperren. Du kannst auch spezifische Regeln nur für einen bestimmten Crawler (z.B. nur GPTBot) definieren während andere Crawler diese Seiten weiterhin crawlen dürfen.

Respektieren alle AI-Crawler die robots.txt?+

Alle seriösen AI-Crawler — GPTBot, ClaudeBot, PerplexityBot und Google-Extended — respektieren die robots.txt und halten sich an die darin enthaltenen Anweisungen. Bösartige Bots und einfache Scraper ignorieren die robots.txt häufig. Für diese gibt es keine einfache Lösung über die robots.txt — dort helfen nur serverseitige Maßnahmen.

Wie oft wird die robots.txt von AI-Crawlern gelesen?+

Crawler lesen die robots.txt in regelmäßigen Abständen neu ein — in der Regel täglich oder alle paar Tage. Änderungen werden also nicht sofort wirksam. Für dringende Korrekturen kann man über die Google Search Console einen sofortigen Neu-Crawl der robots.txt anfordern — das funktioniert allerdings nur für Googlebot.

Beeinflusst das Blockieren von GPTBot mein Google-Ranking?+

Nein — GPTBot und Googlebot sind vollständig unabhängige Crawler. Das Blockieren von GPTBot hat keinen Einfluss auf das Google-Ranking. Du kannst GPTBot für AI-Training sperren während Googlebot weiterhin alle Seiten crawlen und indexieren darf.