robots.txt analysiert
Im Blog von Dr. Web wurde heute ein interessanter Artikel bezüglich der Verwendung von robots.txt publiziert: Andrew Wooster hatte mit einem eigenen Crawler 4,6 Millionen Domains auf deren robots.txt hin untersucht und dabei sehr interessante Ergebnisse erhalten: Nicht nur finden sich dort detaillierte Aufstellungen über die erhaltenen Status-Codes und Mime-Typen, sondern er listet auch eine Vielzahl von weit verbreiteten Fehlern und weniger verbreiteten Kuriositäten auf.
Das erinnert mich daran, dass ToSCA endlich auch die Inhalte der robots.txt beachten sollte… ;-)
Hallo,
ist das Projekt eigentlich tot? Bin durch Zufall auf die Seite gestoßen und finde es sehr interessant. Schade das seit rund einem Jahr nichts mehr geschrieben wurde …
Kommentar von Frank | 7. November 2008