robots.txt analysiert
Im Blog von Dr. Web wurde heute ein interessanter Artikel bezüglich der Verwendung von robots.txt publiziert: Andrew Wooster hatte mit einem eigenen Crawler 4,6 Millionen Domains auf deren robots.txt hin untersucht und dabei sehr interessante Ergebnisse erhalten: Nicht nur finden sich dort detaillierte Aufstellungen über die erhaltenen Status-Codes und Mime-Typen, sondern er listet auch eine Vielzahl von weit verbreiteten Fehlern und weniger verbreiteten Kuriositäten auf.
Das erinnert mich daran, dass ToSCA endlich auch die Inhalte der robots.txt beachten sollte… ;-)