Warum dieser Test? Ein Bekannter hat mal beobachtet, wie seine Site trotz robots.txt im Google Index gelandet ist. Hiermit wollen wir jetzt prüfen, ob dies an Fehlern in der robots.txt lag oder ob sich nicht alle Crawler an den Robots Exclusion Standard halten. Dieser ist nur eine Empfehlung.
Ergebnisse
Wie den Screenshots zu entnehmen ist, wurden beide URLs in den Google-Suchindex aufgenommen. Auch wenn bei der Disallow-Variante zwar keine weiteren Informationen ausgewertet wurden, so ist die URL doch im Index. Will man eine Domain also nicht öffentlich sichtbar machen, sollte sie auch nirgendwo verlinkt sein.
Auch eine Suche nach z.B. "robots disallow smiling the sun" liefert dieses Ergebnis - es liegt also nicht daran, dass die genaue URL bekannt ist.
Zu beachten ist, dass dieser Test mit zwei Sub-Domains einer registrierten Domain durchgeführt wurde. Ob dies Einfluss auf die Aufnahme in den Index hat, kann ich nicht sagen.