Version 0.01
So, die erste Version hat’s nun endlich geschafft:
Version 0.01 (Download zip)
- Startet bei einer vorgegebenen URL (muss momentan noch händisch in die DB eingetragen werden)
- Von dort aus werden Links abgegrast (vorerst mal nur <a href=”…”>)
- Wandelt relative in absolute URLs um
- Merkt sich, welche URLs schon besucht wurden, um Redundanzen zu verindern
- Parst die Seite nach dem
robots-Metatag und beachtetnofollowundnoindex - Nach 10 gecrawlten Seiten bricht der Prozess ab
Voraussetzung: PHP 5 (allow_url_fopen = on), MySQL
Folgende PEAR-Pakete werden von ToSCA derzeit benötigt:
- HTTP_Request
- Log
- MDB2 (mit dem MySQL-Treiber)
- Net_URL2
Vorsicht: Der Crawler ist noch nicht das, was man unter “wohlerzogen” verstehen würde. Weder beachtet er das, was in einer allfällig vorhandenen robots.txt steht, noch nimmt er darauf Rücksicht, dass eine Domain nicht zu oft innerhalb kurzer Zeit besucht wird. Daher möchte ich momentan noch um einen sehr vorsichtigen und behutsamen Umgang mit dem Crawler bitten. Dass der Vorgang nach 10 gecrawlten URLs automatisch beendet wird, kommt nicht von ungefähr…
Auch wenn die Files momentan noch ohne besondere Erklärung zum Downloaden sind, würde ich mich schon jetzt über ein paar Reaktionen von euch freuen!
LG, Estigy.