Building a webcrawler

ToSCA, die Entwicklung eines Spiders

URL ist perfekt?

Alles hätte so einfach sein können:
Man nimmt die URL Klasse, leitet von ihr eine Unterklasse namens WebPage ab und fügt ein paar Funktionalitäten hinzu, wie etwa das Laden des HTML-Codes oder das Suchen von nofollow/noindes-Metatags. Dann hätte ich diese Klasse verwendet, wann immer ich eine URL zwischen Objekten herumreichen hätte müssen.

Angefangen habe ich etwa so:

JAVA:

  1. public class WebPage extends URL {
  2.  
  3. /** Creates a new instance of WebPage */
  4. public WebPage() {
  5.  
  6. }
  7.  
  8. }

Ziemlich süß, nicht wahr?
Tatsächlich. Eine Kleinigkeit gibt es aber daran auszusetzen:

WebPage.java:17: cannot inherit from final java.net.URL

Ich wollte meinen Augen nicht trauen: Warum zur Hölle ist URL final?!?
Vielleicht, weil sich die Leute von Sun tatsächlich nichts vorstellen können, was man mit URLs machen wollen könnte?
Oder meinen sie, dass es dieser Implementation nichts mehr hinzuzufügen gibt?

Mir gehen die Ideen aus. Hat jemand anderes hier mehr Einblick?

6. February 2007 Geschrieben von Estigy | Webpage | Keine Kommentare

Keine Kommentare »

Noch keine Kommentare.

Kommentar schreiben