start 2.0: September 2011

2011-09-05

Robots Exclusion Standard: Ein Test

Für einen Test muss ich hier mal zwei (Sub-)Domains verlinken. Über diese Links werden die beiden Domains dann von den Search Engine Crawlern gefunden. Da bei beiden Domains die robots.txt unterschiedlich gesetzt ist, sollte nur eine der beiden Domains in den Index aufgenommen werden.

Warum dieser Test? Ein Bekannter hat mal beobachtet, wie seine Site trotz robots.txt im Google Index gelandet ist. Hiermit wollen wir jetzt prüfen, ob dies an Fehlern in der robots.txt lag oder ob sich nicht alle Crawler an den Robots Exclusion Standard halten. Dieser ist nur eine Empfehlung.

Ergebnisse

Wie den Screenshots zu entnehmen ist, wurden beide URLs in den Google-Suchindex aufgenommen. Auch wenn bei der Disallow-Variante zwar keine weiteren Informationen ausgewertet wurden, so ist die URL doch im Index. Will man eine Domain also nicht öffentlich sichtbar machen, sollte sie auch nirgendwo verlinkt sein.

Auch eine Suche nach z.B. "robots disallow smiling the sun" liefert dieses Ergebnis - es liegt also nicht daran, dass die genaue URL bekannt ist.

Zu beachten ist, dass dieser Test mit zwei Sub-Domains einer registrierten Domain durchgeführt wurde. Ob dies Einfluss auf die Aufnahme in den Index hat, kann ich nicht sagen.

Seiten

2011-09-05

Robots Exclusion Standard: Ein Test