Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Unterschiede zwischen klassischem IR und Web IR

Das Web hat für IR neue Forschungsfragen aufgeworfen und unterscheidet sich vom „klassischen“ IR hinsichtlich des zugrunde liegenden Dokumentenkorpus, der Inhalte, der Nutzer und hinsichtlich der Eigenarten des IR Systems selbst (Lewandowski, 2005b, S. 5).
„Web Information Retrieval“ bezeichnet die Anwendung der Methoden und Modellen des IR auf das Web.

Das Web als Herausforderung für das klassische Information Retrieval

Eine besondere Eigenschaft des Webs aus IR Sicht ist, dass die genaue Dokumentmenge nicht bekannt ist und auch nicht ermittelt werden kann. Darüber hinaus existieren Hyperlink-Strukturen einer gewissen Form, die die vollständige Erfassung erschweren. Webseiten haben zudem eine interne Struktur, sie sind untereinander in semantisch bedeutungsvoller Art und Weise miteinander verbunden, oft dupliziert vorhanden und täuschen mitunter falsche Inhalte vor um besser bewertet zu werden (Chakrabarti 2003, S. 45).
Als eines der größten Probleme der Web-Indexierung ist die mangelnde Strukturierung der Dokumente anzusehen (Lewandowski 2005b, S. 6). Die „Hypertext Markup Language (HTML)“, die gängige Auszeichnungssprache im Web, bietet zwar Strukturen zur Formatierung und Gliederung, doch werden diese von den Autoren nicht bewusst ausgenutzt bzw. nicht einheitlich verwendet. Des Weiteren können die Inhalte des Webs potenziell in jeder Sprache vorliegen und erschweren somit die Erreichung der Vollständigkeit einer Volltexterschließung.
Ein weiterer Unterschied ist die Frage nach der Qualität der Dokumente. In klassischen IR Systemen bestand nie das Problem Dokumente hinsichtlich ihrer Qualität zu bewerten. Für Suchmaschinen ist dies jedoch essenziell, weshalb für jedes Dokument ein Wert für dessen Qualität bzw. Autorität bestimmt wird und Ranking-Verfahren zur Bestimmung der Relevanz in Bezug auf eine Suchanfrage eingesetzt werden (Lewandowski 2005b, S. 6).
Wesentliche Unterschiede gibt es auch in Bezug auf die Nutzer zwischen klassischen IR Systemen bzw. Online-Datenbanken und dem Web. Die Datenbank-Nutzer können mit den Abfragesprachen und den komplexen Suchmöglichkeiten umgehen und Suchanfragen genau formulieren, wohingegen an Suchmaschinen Anfragen unterschiedlichster Ausrichtung gestellt werden und durch die fehlende Homogenität der Inhalte die Suche nicht klar fokussiert ist. Darüber hinaus sind die Suchanfragen in Web-Suchmaschinen weniger komplex (Lewandowski 2005b, S. 6). Frühe Suchmaschinen versuchten die komplexen Abfragemöglichkeiten der klassischen IR Systeme nachzubilden. Da diese von den Nutzern nur in geringem Umfang wahrgenommen werden, bieten neuere Suchmaschinen keine den klassischen IR Systemen vergleichbare Suchmöglichkeiten. Boolesche Suche, Abstandsoperatoren, Trunkierung, sowie speziellere Abfragemöglichkeiten wie gewichtetes Retrieval oder Fuzzy-Suche finden bei aktuellen Suchmaschinen wenig Beachtung (vgl. Lewandowski 2005b, S. 6).
Eine weitere Besonderheit des Webs ist die Tatsache, dass unterschiedliche Dokumenttypen verwendet werden können. Die Standardsprache ist zwar HTML, jedoch lassen sich prinzipiell Dokumente jeden Dateityps einbinden. Im Folgenden werden die populärsten Dateitypen des Webs vorgestellt und speziell auf die Frage eingegangen, welche Strukturinformationen in Web Dokumenten für eine Indexierung hilfreich sind.