BINGO, ein fokussierter Crawler mit SVM Klassifizierer auf Basis von Lesezeichen

BINGO! Focused Crawler

BINGO! (“Bookmark-Induced Gathering of Information with Adaptive Classification into Personalized Ontologies”) ist ein fokussierter Web Crawler, der vom Max Plank Institut entwickelt wurde. Ausgangspunkt sind Web-Lesezeichen, die durch eine Taxonomie kategorisiert sind. Z.B. könnten dies Webseiten aus den Gebieten „Hotels“ und „Skigebiete“ sein, sowie eine dritte Kategorie „Andere“. Aus diesen Beispielen werden Merkmale extrahiert, die das Thema repräsentieren. Während des crawling Prozesses werden die Merkmale neuer Webseiten mit den Merkmalen der Trainingsbasis verglichen und somit ein Ähnlichkeitswert bestimmt, der die Webseite einer Kategorie zuordnet.

Das BINGO! System besteht aus sechs Hauptkomponenten: Dem Crawler selbst, einem “document analyzer”, der für jedes HTML Dokument einen Feature Vektor anfertigt, der SVM Klassifizierer mit den Trainingsdaten, der „feature-selection“ Komponente, um Störungen (“noise”) des SVM-Klassifizierers zu reduzieren, dem Link-Analyse Modul um Themenspezifische “authorities” und “hubs” zu finden (HITS Algorithmus) und einem Training Modul für den SVM-Klassifizierer, der eine für das ständige neu trainieren zuständig ist.

Die Software bietet also sowohl link-topologische Komponenten, als auch Inhalts-basierte Analysen an, um den Crawling-Prozess zu auf spezielle Themen zu fokussieren.

URL: Download BINGO!

Besuchen Sie uns Bald wieder und lesen die Evaluation der verschiedenen focused Web Crawlers