Die Website-Architektur bestimmt maßgeblich, wie effizient Such-Crawler Inhalte entdecken und bewerten können. Eine saubere Struktur reduziert Crawl-Reibung und macht inhaltliche Prioritäten klar erkennbar.
Die Website-Architektur bestimmt maßgeblich, wie effizient Such-Crawler Inhalte entdecken und bewerten können. Eine saubere Struktur reduziert Crawl-Reibung und macht inhaltliche Prioritäten klar erkennbar.
Eine gute Architektur zeichnet sich durch folgende Merkmale aus:
Wichtige Seiten sollten in möglichst wenigen Klicks von der Startseite erreichbar sein. Für Blogs und Unternehmensseiten sind 2–3 Klicks ideal. Auch bei großen Websites sollten zentrale Kategorien und Hubs nicht tiefer als drei Ebenen liegen.
Sehr tiefe Strukturen erhöhen das Risiko verzögerter Entdeckung und geringerer Gewichtung durch den Crawler. Navigation, Kategorien und interne Links sollten so gestaltet sein, dass zentrale Inhalte nahe am Root bleiben.
Jede indexierbare Seite sollte mindestens einen internen Link besitzen. Seiten ohne interne Verlinkung (Orphan Pages) werden häufig spät oder gar nicht erfasst.
Effektive interne Verlinkung umfasst:
Für Content-Websites sind thematische Hubs besonders wirksam. Artikel, die innerhalb eines Themenclusters miteinander verlinkt sind, bilden eine semantische Einheit, die Suchmaschinen leichter als zusammenhängendes Themengebiet interpretieren können.
Die Architektur sollte den internen „Link-Wert" gezielt auf strategisch wichtige Seiten lenken. Die Startseite verweist typischerweise auf Hauptkategorien, sollte aber nicht wahllos auf alle URLs verlinken, da dies die Gewichtung verwässert.
Eine hierarchische Struktur (Startseite → Kategorien → Unterkategorien → Inhalte) ist sowohl für Nutzer als auch für Crawler logisch. Untergeordnete Seiten sollten nicht mit übergeordneten Ebenen um generische Suchanfragen konkurrieren.
Schlechte Architektur kann unendliche Crawl-Pfade erzeugen, etwa durch:
Navigation muss begrenzt, vorhersehbar und kontrolliert sein. Unendliche oder zyklische Linkstrukturen sind unbedingt zu vermeiden.
XML-Sitemaps unterstützen Crawler bei der URL-Entdeckung. Sie listen wichtige Seiten explizit auf und liefern zusätzliche Signale wie Änderungsdaten. Eine Sitemap garantiert keine Indexierung, verbessert aber Auffindbarkeit und Recrawl.
Besonders relevant sind Sitemaps für:
Sitemaps sollten aktuell sein, nur kanonische URLs enthalten und sinnvolle <lastmod>-Werte nutzen. Laut Hinweisen von Bing führen mangelhafte Sitemaps häufig zu erheblichen Crawl-Lücken.
Eine HTML-Sitemap oder strukturierte Übersichtsseite kann zusätzlich helfen, insbesondere für Bots mit geringerer Sitemap-Nutzung.
Die robots.txt steuert, welche Bereiche gecrawlt werden dürfen. Richtig eingesetzt, spart sie Crawl-Budget für relevante Inhalte.
Typische Ausschlüsse:
Disallow-Regeln verhindern bei Google vollständig das Crawling dieser Pfade. Soll eine Seite gecrawlt, aber nicht indexiert werden, ist ein noindex Meta-Tag die richtige Wahl.
Google ignoriert crawl-delay, während Yandex und Bing diese Direktive berücksichtigen. Yandex bietet zusätzlich Clean-param, um irrelevante URL-Parameter zu ignorieren und Duplikate zu vermeiden.
Kurze, verständliche URLs erleichtern sowohl Nutzern als auch Crawlern die Orientierung. Parameterbasierte Duplikate sind ein häufiges Problem großer Websites.
Für Yandex hilft Clean-param, für Google sind Canonical-Tags und saubere URL-Logik entscheidend. Auch alternative URLs (z. B. Druckversionen oder AMP) verbrauchen Crawl-Ressourcen und sollten gezielt eingesetzt werden.
Duplikate entstehen u. a. durch:
Ein klares Haupt-Dokument sollte durch Redirects und Canonicals definiert werden. Übermäßige Duplikation verwässert den Crawl-Budget-Einsatz und verzögert die Erfassung zentraler Inhalte.
Crawler passen ihre Geschwindigkeit an die Serverreaktion an. Schnelle, stabile Antworten ermöglichen intensiveres Crawling, Fehler oder langsame Responses führen zu Drosselung.
Falsche Statuscodes (Soft 404s) und lange Redirect-Ketten verschwenden Crawl-Budget. Redirects sollten möglichst direkt sein.
Die mobile Version ist maßgeblich für die Indexierung. Alle relevanten Inhalte, Links und strukturierten Daten müssen dort vorhanden sein.
Indexierbare Inhalte dürfen keine Authentifizierung erfordern. WAFs oder Anti-Bot-Systeme müssen Suchmaschinen explizit zulassen, um unbeabsichtigte Blockaden zu vermeiden.