Web Mining. Content, Structure and Usage Mining.

Mining the World Wide Web - Web Mining

Unter dem Begriff „Web Mining“ wird die Anwendung von Data-Mining Methoden zur Erkennung von Mustern und Regularitäten auf das World Wide Web verstanden (vgl. Ehrig, Hartmann und Schmitz, 2004). Mehler und Wolff (2005, S. 7) sehen Web Mining als eines der wichtigsten Anwendungsgebiete für das Text Mining. Web Mining ist ein interdisziplinäres, sehr dynamisches Forschungsgebiet, das Erkenntnisse aus den Bereichen Datenbanken, IR, und Künstliche Intelligenz (insbesondere maschinelles Lernen und Computerlinguistik) subsumiert und auf das Web anwendet (vgl. Kosala und Blockeel, 2000, S. 1-2).

Mining Usage Structure and Content

versucht Regularitäten in der Benutzung von Webseiten bzw. Webressourcen zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert. Unter anderem sind das Zugriffsprotokolle von Web und Proxy Servern, Browser Protokolle, Benutzerprofile, Registrierungsdaten, Benutzer-Sitzungen, Transaktionen, Cookies, Suchabfragen, Maus-Klicks und -Scrolls (vgl. Kosala und Blockeel, 2000, S.3).

versucht, die einer Webseite bzw. Domäne zugrunde liegende Verweisstruktur zu erkennen. Basierend auf der Topologie der Verweise (hyperlinks) der Webseite ,mit optionaler Beschreibung derselben, wird ein Modell erstellt. Dieses kann für die Kategorisierung und das Ranking einer Webseite nützlich sein und lässt Rückschlüsse auf Ähnlichkeiten zwischen Webseiten und deren Beziehungen zueinander zu. Zum Beispiel könnten inhaltsreiche Webseiten (sog. Authorities) und überblicksartige Webseiten (sog. Hubs) für ein bestimmtes Thema ausfindig gemacht werden. (vgl. Kosala, 2000, S. 3; Kleinberg, 1998)

befasst sich mit der Erkennung von Regularitäten in den Inhalten einer Webressource (vgl. Ehrig, Hartmann und Schmitz, 2004). Die Inhalte der Daten im Web bestehen aus unstrukturierten Daten wie Text Dokumenten, semi-strukturierten Daten wie HTML Dokumenten und stärker strukturierten Daten wie Tabellen oder dynamisch generierten HTML Seiten. Grundsätzlich bestehen die Inhalte einer Webseite aus verschiedenen Datentypen, wie Texten, Bildern, Audio-, Video-, Metadaten

Vier Unteraufgaben von Web Mining unterscheiden Kosala und Blockeel (2000, S. 2):

Ressourcen Finden (z.B. Finden der „Besten“ Web Dokumente)
Informationsselektion und -vorverarbeitung
Automatisches Entdecken von allgemeingültigen Mustern innerhalb einer Website und über mehrere Webseiten (Generalisierung).
Analyse: Evaluation und Interpretation der gewonnenen Muster

Web Mining wird oft mit IR und IE in Zusammenhang gebracht. Web Mining unterscheidet sich jedoch von diesen Gebieten. Die Aufgabe der Klassifizierung kann als Instanz von Web Mining gesehen werden, kann aber auch innerhalb eines IR-Prozesses erfolgen (vgl. Kosala und Blockeel, 2000, S. 2). Der IE Prozess kann als Vorverarbeitungsphase im Web Mining Prozess betrachtet werden, der nach dem Retrieval und vor dem Data Mining zwischengeschaltet wird (vgl. Kosala und Blockeel, 2000, S. 2-3).
„Best-Path“-Suchalgorithmen für fokussierte Web Crawler (vgl. Kapitel fokussierte Web Crawler) bzw. die Anwendung von Machine Learning zum fokussierten Web Crawlen schließen Kosala und Blockeel (2000, S. 3) explizit aus dem Begriff Web Mining aus, haltet jedoch fest dass maschinelles lernen den Web Mining Prozess unterstützt und sich die beiden Gebiete überschneiden. Der persönlichen Auffassung des Autors nach ist dies jedoch unangebracht, da gerade im Bereich fokussiertes Web Crawlen alle Bereiche des Web Mining interagieren und der erste Schritt (Finden der Ressourcen) im Web Mining Prozess weitgehend automatisiert werden kann. Als Ergebnis der Analyse fokussierter Web Crawler ist eine Bestätigung dieser Behauptung zu erwarten.
Web Mining übernimmt Verfahren und Methoden aus den Bereichen IR, Maschinelles Lernen, Statistik, Mustererkennung und Data Mining (vgl. Chakrabarti 2003, S. 11). Dabei werden die drei folgenden Bereiche unterschieden: „Web Usage Mining“, „Web Structure Mining“ und „Web Content Mining“ (vgl. Kosala und Blockeel, 2000, S. 3-4; Ehrig, Hartmann und Schmitz, 2004).

Bald erfahren Sie auf wissensexploration mehr über die Kombination der Technologie focused Crawler und Text Mining.