Mining the World Wide Web - Web Mining
Unter dem Begriff „Web Mining“ wird die Anwendung von Data-Mining Methoden
zur Erkennung von Mustern und Regularitäten auf das World Wide Web verstanden
(vgl. Ehrig, Hartmann und Schmitz, 2004). Mehler und Wolff (2005, S. 7) sehen
Web Mining als eines der wichtigsten Anwendungsgebiete für das Text Mining.
Web Mining ist ein interdisziplinäres, sehr dynamisches Forschungsgebiet,
das Erkenntnisse aus den Bereichen Datenbanken, IR, und Künstliche Intelligenz
(insbesondere maschinelles Lernen und Computerlinguistik) subsumiert und auf
das Web anwendet (vgl. Kosala und Blockeel, 2000, S. 1-2).
Mining Usage Structure and Content
- Web Usage Mining
- Web Structure Mining
- Web Content Mining
versucht Regularitäten in der Benutzung von Webseiten bzw. Webressourcen
zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion
des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert.
Unter anderem sind das Zugriffsprotokolle von Web und Proxy Servern, Browser
Protokolle, Benutzerprofile, Registrierungsdaten, Benutzer-Sitzungen,
Transaktionen, Cookies, Suchabfragen, Maus-Klicks und -Scrolls (vgl. Kosala
und Blockeel, 2000, S.3).
versucht, die einer Webseite bzw. Domäne zugrunde liegende Verweisstruktur
zu erkennen. Basierend auf der Topologie der Verweise (hyperlinks) der
Webseite ,mit optionaler Beschreibung derselben, wird ein Modell erstellt.
Dieses kann für die Kategorisierung und das Ranking einer Webseite nützlich
sein und lässt Rückschlüsse auf Ähnlichkeiten zwischen Webseiten und deren
Beziehungen zueinander zu. Zum Beispiel könnten inhaltsreiche Webseiten
(sog. Authorities) und überblicksartige Webseiten (sog. Hubs) für ein
bestimmtes Thema ausfindig gemacht werden. (vgl. Kosala, 2000, S. 3; Kleinberg,
1998)
befasst sich mit der Erkennung von Regularitäten in den Inhalten einer
Webressource (vgl. Ehrig, Hartmann und Schmitz, 2004). Die Inhalte der
Daten im Web bestehen aus unstrukturierten Daten wie Text Dokumenten,
semi-strukturierten Daten wie HTML Dokumenten und stärker strukturierten
Daten wie Tabellen oder dynamisch generierten HTML Seiten. Grundsätzlich
bestehen die Inhalte einer Webseite aus verschiedenen Datentypen, wie
Texten, Bildern, Audio-, Video-, Metadaten
Vier Unteraufgaben von Web Mining unterscheiden Kosala und Blockeel (2000,
S. 2):
- Ressourcen Finden (z.B. Finden der „Besten“ Web Dokumente)
- Informationsselektion und -vorverarbeitung
- Automatisches Entdecken von allgemeingültigen Mustern innerhalb einer
Website und über mehrere Webseiten (Generalisierung).
- Analyse: Evaluation und Interpretation der gewonnenen Muster
Web Mining wird oft mit IR und IE in Zusammenhang gebracht. Web Mining unterscheidet
sich jedoch von diesen Gebieten. Die Aufgabe der Klassifizierung kann als Instanz
von Web Mining gesehen werden, kann aber auch innerhalb eines IR-Prozesses erfolgen
(vgl. Kosala und Blockeel, 2000, S. 2). Der IE Prozess kann als Vorverarbeitungsphase
im Web Mining Prozess betrachtet werden, der nach dem Retrieval und vor dem
Data Mining zwischengeschaltet wird (vgl. Kosala und Blockeel, 2000, S. 2-3).
„Best-Path“-Suchalgorithmen für fokussierte Web Crawler (vgl. Kapitel
fokussierte Web Crawler) bzw. die Anwendung von Machine Learning zum fokussierten Web Crawlen
schließen Kosala und Blockeel (2000, S. 3) explizit aus dem Begriff Web Mining
aus, haltet jedoch fest dass maschinelles lernen den Web Mining Prozess unterstützt
und sich die beiden Gebiete überschneiden. Der persönlichen Auffassung des Autors
nach ist dies jedoch unangebracht, da gerade im Bereich fokussiertes Web Crawlen
alle Bereiche des Web Mining interagieren und der erste Schritt (Finden der
Ressourcen) im Web Mining Prozess weitgehend automatisiert werden kann. Als
Ergebnis der Analyse fokussierter Web Crawler ist eine Bestätigung
dieser Behauptung zu erwarten.
Web Mining übernimmt Verfahren und Methoden aus den Bereichen IR, Maschinelles
Lernen, Statistik, Mustererkennung und Data Mining (vgl. Chakrabarti 2003, S.
11). Dabei werden die drei folgenden Bereiche unterschieden: „Web Usage Mining“,
„Web Structure Mining“ und „Web Content Mining“ (vgl. Kosala und Blockeel, 2000,
S. 3-4; Ehrig, Hartmann und Schmitz, 2004).
Bald erfahren Sie auf wissensexploration mehr über die
Kombination der Technologie focused Crawler und Text Mining.