Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Focused Crawler
Einleitung
Universal-Suchmaschinen
Fokussierte WebCrawler
Analyse Algorithmen
Such Algorithmen
Software
Links | Kommentare

Intelligente Web Crawler

Suchmaschinen sind zur Organisation der Informationen im Web essentiell. Dem exponentiellen Wachstum entgegnen universelle Suchmaschinen mit mehr Rechenleistung und ausgeklügelten Ranking-Algorithmen.
Das Ranking der Suchergebnisse wird durch die Berechnung eines globalen Prestigewerts einer Webseite (z.B. Pagerank) und die vom Benutzer eingegebenen Schlüsselworte beeinflusst. Trotzdem liefern Suchabfragen eine unüberschaubare Menge an Suchergebnissen, ohne den Kontext einer Suchabfrage zu kennen bzw. zu berücksichtigen. Viele Ergebnisse sind nicht auf dem aktuellen Stand.
Universelle Suchmaschinen haben also eine niedrige Präzision (low precision) und eine niedrige Vollständigkeit der Suche durch folgende Tatsachen: Viele Suchergebnisse sind für den Benutzer irrelevant und es ist unmöglich alle Informationen im Web zu indexieren (vgl. Kosala und Blockeel, 2000, S. 1).

Themenfokussierte Suchmaschinen verwenden inhaltsbasierte Analysen, um die Relevanz einer Webseite für ein bestimmtes Thema zu bestimmen. Zudem fokussieren Sie ihre Suche auf URLs, die mit größter Wahrscheinlichkeit für das Thema relevant sind, ohne die Zielseite bereits zu kennen.
Mit Focused Crawlers ist es möglich, durch (im Vergleich zu Universalsuchmaschinen) geringe Rechenleistung und Netzwerkressourcen eine aktuelle, qualitativ-hochwertige und hoch-relevante Dokumentsammlung zu einem bestimmten Thema bzw. für eine bestimmte Domäne zu erstellen (vgl. Chau und Chen, 2003, S. 56ff).

Wissensexploration.de untersucht, welche inhaltsorientierten Texttechnologien es gibt und welche Methoden, Ansätze und Technologien Muster und Regularitäten in der Dokumentsammlung erkennen können um neuartiges, nicht-triviales Wissen aus den Texten zu gewinnen.
Siehe auch Thema Text Mining


Wie kann man aus dem Web eine aktuelle, qualitativ hochwertige und umfangreiche Dokumentsammlung zu einem speziellen Thema bzw. für eine spezielle Domäne gewinnen?

Dies kann weitgehend manuell erfolgen, indem man sich einer Suchmaschine bedient, die gesuchten Inhalte durch Schlüsselwörter beschreibt und diese abspeichert. In Anbetracht der Datenmengen im Web und der Tatsache, dass die Dokumentsammlung umfangreich und aktuell zugleich sein soll ist dies jedoch eine nicht zufrieden stellende Lösung.
Eine Alternative wäre automatisch generierte Suchabfragen an eine Suchmaschine zu senden und die gefundenen URLs anschließend (automatisch) lokal zu speichern. Dies wird jedoch von den meisten Suchmaschinen ausdrücklich verboten (vgl. z.B. http://www.google.de/accounts/TOS).
Möglich ist dies dennoch über sog. „Web Services“, die von den populären Suchmaschinen angeboten werden. Dadurch wird man – nach (derzeit) kostenloser Anmeldung – dazu berechtigt eigene Programme zu entwickeln, die direkt auf den Index der Suchmaschine zugreifen.
Eine weitere Möglichkeit sind sog. Webverzeichnisse, die eine Taxonomie von Webseiten beinhalten und URLs zu bestimmten Themen auflisten; z.B. das Open Directory Projekt (http://dmoz.org).

Die Forderung nach einer aktuellen Datenbasis wird durch diese Vorgehensweisen jedoch nur teilweise erfüllt. Die Notwendigkeit dieser Forderung zeigt folgende Statistik: Pro Woche entstehen 320 Millionen neue Seiten, 20 Prozent der heute vorhandenen Seiten werden in einem Jahr nicht mehr vorhanden sein und inhaltlich werden innerhalb eines Jahres 50 Prozent des Webs neu sein. 80 Prozent aller Links werden innerhalb eines Jahres neu oder verändert sein (vgl. Lewandowski, 2006, S. 141). Universelle Suchmaschinen verwenden sog. Link-topologische Verfahren, um die Relevanz einer Webressource zu bestimmen und bevorzugen dadurch tendenziell ältere Dokumente (vgl. Lewandowski, 2006, S. 141). Zur Lösung dieses Problems wird in Abschnitt 2.2.2. der "fokussierte Web Crawler" als Werkzeug präsentiert, der es ermöglicht zielgerichtet eine aktuelle Dokumentsammlung für einen speziellen Informationsbedarf (Thema bzw. Domäne) zu erstellen.

Lesen Sie weiter: Wie Universelle Suchmaschinen das gesamte Web indexieren (wollen).