Im Blog von Dr. Web wurde heute ein interessanter Artikel bezüglich der Verwendung von robots.txt publiziert: Andrew Wooster hatte mit einem eigenen Crawler 4,6 Millionen Domains auf deren robots.txt hin untersucht und dabei sehr interessante Ergebnisse erhalten: Nicht nur finden sich dort detaillierte Aufstellungen über die erhaltenen Status-Codes und Mime-Typen, sondern er listet auch eine Vielzahl von weit verbreiteten Fehlern und weniger verbreiteten Kuriositäten auf.
Das erinnert mich daran, dass ToSCA endlich auch die Inhalte der robots.txt beachten sollte… ;-)
26. September 2007
Geschrieben von
Estigy |
Sonstiges |
Ein Kommentar
Version 0.02 (Download zip) ist nur ein kleines Update, um euch beim Ausprobieren des Scripts weniger Schwierigkeiten zu bereiten:
- Neu: Vor dem Herunterladen des Contents von einer URL wird nun geprüft, ob es sich überhaupt um eine HTML-Datei handelt. Nur dann wird der Inhalt geladen und nach neuen Links geparst. Dafür wird ein eigener “HEAD”-Request an den Zielserver gestellt. Das bringt zwar für jede einzelne URL ein paar Bytes zusätzlichen Traffic, erspart aber möglicherweise das Herunterladen einer 10 MB großen PDF-Datei. Und dafür kann man schon einige Head-Requests senden… ;-)
- Fixed: Bug #1, “Pear::Net_URL2 wird auf Linux nicht gefunden”
19. September 2007
Geschrieben von
Estigy |
Sonstiges |
Ein Kommentar
Ich hab’s gefunden: Ein geniales Plugin, um diversesten Code farblich darzustellen.
Ich verwende iG:SyntaxHiliter, das ich auch allen anderen empfehlen kann, die einen Blog betreiben wollen (oder schon betreiben) und Code-Schnippsel entsprechend herzeigen wollen. Es kann eine ganze Reihe von Sprachen richtig einfärbeln und verwendet GeSHI.
Nun freue ich mich schon darauf, euch Einblicke in den Code geben zu können, den ich so produzieren werde.
3. February 2007
Geschrieben von
Estigy |
Sonstiges |
Ein Kommentar
Mein Freund und Web Hoster Benno Rott hat in mir die Idee geweckt, meine Arbeit und deren Fortschritt sowie die Sorgen und Probleme mit der Community zu teilen.
Also habe ich diesen WordPress Blog aufgesetzt für alle, die mich und meine Gedanken in diesem Projekt begleiten wollen.
Ich freue mich über jegliche Kommentare, aber wie die Kollegen von 37signals in ihrem Blog Signal vs. Noise so schön sagen:
Please, Let’s add value!
20. January 2007
Geschrieben von
Estigy |
Sonstiges |
Keine Kommentare