Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Text Mining
Links | Kommentare

Mining the World Wide Web - Web Mining

Unter dem Begriff „Web Mining“ wird die Anwendung von Data-Mining Methoden zur Erkennung von Mustern und Regularitäten auf das World Wide Web verstanden (vgl. Ehrig, Hartmann und Schmitz, 2004). Mehler und Wolff (2005, S. 7) sehen Web Mining als eines der wichtigsten Anwendungsgebiete für das Text Mining. Web Mining ist ein interdisziplinäres, sehr dynamisches Forschungsgebiet, das Erkenntnisse aus den Bereichen Datenbanken, IR, und Künstliche Intelligenz (insbesondere maschinelles Lernen und Computerlinguistik) subsumiert und auf das Web anwendet (vgl. Kosala und Blockeel, 2000, S. 1-2).

Mining Usage Structure and Content

  • Web Usage Mining
  • Web Structure Mining
  • Web Content Mining

versucht Regularitäten in der Benutzung von Webseiten bzw. Webressourcen zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert. Unter anderem sind das Zugriffsprotokolle von Web und Proxy Servern, Browser Protokolle, Benutzerprofile, Registrierungsdaten, Benutzer-Sitzungen, Transaktionen, Cookies, Suchabfragen, Maus-Klicks und -Scrolls (vgl. Kosala und Blockeel, 2000, S.3).

Vier Unteraufgaben von Web Mining unterscheiden Kosala und Blockeel (2000, S. 2):

  1. Ressourcen Finden (z.B. Finden der „Besten“ Web Dokumente)
  2. Informationsselektion und -vorverarbeitung
  3. Automatisches Entdecken von allgemeingültigen Mustern innerhalb einer Website und über mehrere Webseiten (Generalisierung).
  4. Analyse: Evaluation und Interpretation der gewonnenen Muster

Web Mining wird oft mit IR und IE in Zusammenhang gebracht. Web Mining unterscheidet sich jedoch von diesen Gebieten. Die Aufgabe der Klassifizierung kann als Instanz von Web Mining gesehen werden, kann aber auch innerhalb eines IR-Prozesses erfolgen (vgl. Kosala und Blockeel, 2000, S. 2). Der IE Prozess kann als Vorverarbeitungsphase im Web Mining Prozess betrachtet werden, der nach dem Retrieval und vor dem Data Mining zwischengeschaltet wird (vgl. Kosala und Blockeel, 2000, S. 2-3).
„Best-Path“-Suchalgorithmen für fokussierte Web Crawler (vgl. Kapitel fokussierte Web Crawler) bzw. die Anwendung von Machine Learning zum fokussierten Web Crawlen schließen Kosala und Blockeel (2000, S. 3) explizit aus dem Begriff Web Mining aus, haltet jedoch fest dass maschinelles lernen den Web Mining Prozess unterstützt und sich die beiden Gebiete überschneiden. Der persönlichen Auffassung des Autors nach ist dies jedoch unangebracht, da gerade im Bereich fokussiertes Web Crawlen alle Bereiche des Web Mining interagieren und der erste Schritt (Finden der Ressourcen) im Web Mining Prozess weitgehend automatisiert werden kann. Als Ergebnis der Analyse fokussierter Web Crawler ist eine Bestätigung dieser Behauptung zu erwarten.
Web Mining übernimmt Verfahren und Methoden aus den Bereichen IR, Maschinelles Lernen, Statistik, Mustererkennung und Data Mining (vgl. Chakrabarti 2003, S. 11). Dabei werden die drei folgenden Bereiche unterschieden: „Web Usage Mining“, „Web Structure Mining“ und „Web Content Mining“ (vgl. Kosala und Blockeel, 2000, S. 3-4; Ehrig, Hartmann und Schmitz, 2004).

Bald erfahren Sie auf wissensexploration mehr über die Kombination der Technologie focused Crawler und Text Mining.