Building a webcrawler

ToSCA, die Entwicklung eines Spiders

Version 0.02

Version 0.02 (Download zip) ist nur ein kleines Update, um euch beim Ausprobieren des Scripts weniger Schwierigkeiten zu bereiten:

  • Neu: Vor dem Herunterladen des Contents von einer URL wird nun geprüft, ob es sich überhaupt um eine HTML-Datei handelt. Nur dann wird der Inhalt geladen und nach neuen Links geparst. Dafür wird ein eigener “HEAD”-Request an den Zielserver gestellt. Das bringt zwar für jede einzelne URL ein paar Bytes zusätzlichen Traffic, erspart aber möglicherweise das Herunterladen einer 10 MB großen PDF-Datei. Und dafür kann man schon einige Head-Requests senden… ;-)
  • Fixed: Bug #1, “Pear::Net_URL2 wird auf Linux nicht gefunden”

19. September 2007 Geschrieben von Estigy | Sonstiges | Ein Kommentar

1 Kommentar »

  1. Das Ganze sieht ziemlich interessant aus.

    Ich werde auf jeden Fall dran bleiben.

    Mal sehen, wie sich die Sache entwickelt.

    Auf ein gutes Gelingen

    Kommentar von 4yw | 9. July 2008

Kommentar schreiben