Website-Architektur und Erleichterung des Crawlings

Die Website-Architektur bestimmt maßgeblich, wie effizient Such-Crawler Inhalte entdecken und bewerten können. Eine saubere Struktur reduziert Crawl-Reibung und macht inhaltliche Prioritäten klar erkennbar.

Website-Architektur und Erleichterung des Crawlings

Interne Struktur und Verlinkung

Eine gute Architektur zeichnet sich durch folgende Merkmale aus:

Geringe Klicktiefe

Wichtige Seiten sollten in möglichst wenigen Klicks von der Startseite erreichbar sein. Für Blogs und Unternehmensseiten sind 2–3 Klicks ideal. Auch bei großen Websites sollten zentrale Kategorien und Hubs nicht tiefer als drei Ebenen liegen.

Sehr tiefe Strukturen erhöhen das Risiko verzögerter Entdeckung und geringerer Gewichtung durch den Crawler. Navigation, Kategorien und interne Links sollten so gestaltet sein, dass zentrale Inhalte nahe am Root bleiben.

Saubere interne Verlinkung

Jede indexierbare Seite sollte mindestens einen internen Link besitzen. Seiten ohne interne Verlinkung (Orphan Pages) werden häufig spät oder gar nicht erfasst.

Effektive interne Verlinkung umfasst:

Hauptnavigation,
Breadcrumbs,
kontextuelle Links im Content,
Footer-Links zu Kernbereichen.

Für Content-Websites sind thematische Hubs besonders wirksam. Artikel, die innerhalb eines Themenclusters miteinander verlinkt sind, bilden eine semantische Einheit, die Suchmaschinen leichter als zusammenhängendes Themengebiet interpretieren können.

Priorisierung zentraler Seiten

Die Architektur sollte den internen „Link-Wert" gezielt auf strategisch wichtige Seiten lenken. Die Startseite verweist typischerweise auf Hauptkategorien, sollte aber nicht wahllos auf alle URLs verlinken, da dies die Gewichtung verwässert.

Eine hierarchische Struktur (Startseite → Kategorien → Unterkategorien → Inhalte) ist sowohl für Nutzer als auch für Crawler logisch. Untergeordnete Seiten sollten nicht mit übergeordneten Ebenen um generische Suchanfragen konkurrieren.

Vermeidung von Crawl-Fallen

Schlechte Architektur kann unendliche Crawl-Pfade erzeugen, etwa durch:

Kalendernavigationen,
endloses Scrollen ohne paginierte Links,
unlimitierte „ähnliche Inhalte"-Blöcke,
unkontrollierte Parameterkombinationen.

Navigation muss begrenzt, vorhersehbar und kontrolliert sein. Unendliche oder zyklische Linkstrukturen sind unbedingt zu vermeiden.

XML-Sitemaps und Navigation

XML-Sitemaps unterstützen Crawler bei der URL-Entdeckung. Sie listen wichtige Seiten explizit auf und liefern zusätzliche Signale wie Änderungsdaten. Eine Sitemap garantiert keine Indexierung, verbessert aber Auffindbarkeit und Recrawl.

Besonders relevant sind Sitemaps für:

neue Websites,
große oder tief verschachtelte Strukturen,
schwach intern verlinkte Inhalte.

Sitemaps sollten aktuell sein, nur kanonische URLs enthalten und sinnvolle <lastmod>-Werte nutzen. Laut Hinweisen von Bing führen mangelhafte Sitemaps häufig zu erheblichen Crawl-Lücken.

Eine HTML-Sitemap oder strukturierte Übersichtsseite kann zusätzlich helfen, insbesondere für Bots mit geringerer Sitemap-Nutzung.

robots.txt: Steuerung von Crawl-Bereichen

Die robots.txt steuert, welche Bereiche gecrawlt werden dürfen. Richtig eingesetzt, spart sie Crawl-Budget für relevante Inhalte.

Typische Ausschlüsse:

Admin-Bereiche,
Warenkörbe und Checkouts,
interne Suchergebnisse,
endlose Filter,
Tracking- und Session-URLs.

Disallow-Regeln verhindern bei Google vollständig das Crawling dieser Pfade. Soll eine Seite gecrawlt, aber nicht indexiert werden, ist ein noindex Meta-Tag die richtige Wahl.

Google ignoriert crawl-delay, während Yandex und Bing diese Direktive berücksichtigen. Yandex bietet zusätzlich Clean-param, um irrelevante URL-Parameter zu ignorieren und Duplikate zu vermeiden.

URL-Optimierung und Parameter

Kurze, verständliche URLs erleichtern sowohl Nutzern als auch Crawlern die Orientierung. Parameterbasierte Duplikate sind ein häufiges Problem großer Websites.

Für Yandex hilft Clean-param, für Google sind Canonical-Tags und saubere URL-Logik entscheidend. Auch alternative URLs (z. B. Druckversionen oder AMP) verbrauchen Crawl-Ressourcen und sollten gezielt eingesetzt werden.

Umgang mit Duplicate Content

Duplikate entstehen u. a. durch:

HTTP/HTTPS,
www/nicht-www,
Pagination,
Mehrfachzuordnung von Produkten.

Ein klares Haupt-Dokument sollte durch Redirects und Canonicals definiert werden. Übermäßige Duplikation verwässert den Crawl-Budget-Einsatz und verzögert die Erfassung zentraler Inhalte.

Performance und technische Erreichbarkeit

Servergeschwindigkeit

Crawler passen ihre Geschwindigkeit an die Serverreaktion an. Schnelle, stabile Antworten ermöglichen intensiveres Crawling, Fehler oder langsame Responses führen zu Drosselung.

HTTP-Statuscodes und Redirects

Falsche Statuscodes (Soft 404s) und lange Redirect-Ketten verschwenden Crawl-Budget. Redirects sollten möglichst direkt sein.

Mobile-First-Konsistenz

Die mobile Version ist maßgeblich für die Indexierung. Alle relevanten Inhalte, Links und strukturierten Daten müssen dort vorhanden sein.

Zugänglichkeit für Crawler

Indexierbare Inhalte dürfen keine Authentifizierung erfordern. WAFs oder Anti-Bot-Systeme müssen Suchmaschinen explizit zulassen, um unbeabsichtigte Blockaden zu vermeiden.

Website-Architektur und Erleichterung des Crawlings

Website-Architektur und Erleichterung des Crawlings

Interne Struktur und Verlinkung

Geringe Klicktiefe

Saubere interne Verlinkung

Priorisierung zentraler Seiten

Vermeidung von Crawl-Fallen

XML-Sitemaps und Navigation

robots.txt: Steuerung von Crawl-Bereichen

URL-Optimierung und Parameter

Umgang mit Duplicate Content

Performance und technische Erreichbarkeit

Servergeschwindigkeit

HTTP-Statuscodes und Redirects

Mobile-First-Konsistenz

Zugänglichkeit für Crawler

Startseite

Insights

Kontakt