Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Strukturelemente in Webdokumenten

Texte können prinzipiell in freier, strukturierter und semi-strukturierter Form vorliegen [vgl. 32]. Freie Texte beinhalten keinerlei Hintergrundinformationen über die Eigenschaften einzelner Textteile. Um Sie zu analysieren müssen computerlinguistische Verfahren eingesetzt werden, um die implizite syntaktische und semantische Struktur explizit zu machen.
Strukturierte Texte sind textuelle Informationen in einer Datenbank oder Datei, die einem vordefinierten und strikten Format folgen. Einfache Regeln reichen oft aus, um Informationen aus Texten zu extrahieren deren Format bekannt ist.
Halb-strukturierte Texte sind zwischen freien Texten und strukturierten Texten einzuordnen. Computerlinguistische Verfahren können nur bedingt eingesetzt werden und einfache Regeln zur Extraktion reichen nicht aus. Eine Art Struktur ist durch tokens and delimiters gegeben. [vgl. 32]
Word Dokumente können mittels Formatvorlagen strukturiert und gestaltet werden. Für die Erschließung der Struktur sind die vordefinierten Formatvorlagen für Überschriften unterschiedlicher Hierarchieordnung gut verwendbar. Benutzerdefinierte Vorlagen sind weniger geeignet und sollten vernachlässigt werden. Dies gilt auch für Autorenangaben, Titel, Stichwörter und Kommentare, die als Meta-Informationen extrahiert werden könnten, aber sehr unzuverlässig sind (vgl. Lewandowski, 2005, S. 65).
PDF Dokumente beinhalten als Strukturinformationen oft Lesezeichen, um innerhalb eines Dokuments zu navigieren. Zudem sind oft, ähnlich wie bei Word Dokumenten Meta Informationen verfügbar. Lesezeichen und Meta-Informationen sind jedoch unzuverlässig und finden nur bedingt Anwendung bei der textuellen Erschließung von Web Dokumenten.
HTML Dokumente nehmen eine Sonderstellung ein. Sie sind den unstrukturierten Fließtexten ähnlich, enthalten jedoch durch die HTML Tags Strukturinformationen. Allerdings werden diese nicht einheitlich verwendet und dienen in vielen Fällen gestalterischen Aspekten. [vgl. Lewandowski 2005, S. 59ff] Innerhalb eines HTML Dokuments lassen sich aber zumindest Textpassagen, Überschriften und hervorgehobene Satzteile identifizieren. Die HTML-Tags können also teilweise zur gezielten Extraktion von Informationen zur Hilfe genommen werden. Folgende Tabelle listet einige Tags, die Strukturinformationen beinhalten:

Tag Bedeutung
title Titel der Seite (Fenster-Title)
h1, h2, ..., h6 Überschriften
b, i, u fett, kursiv, unterstrichen
strong betont
font size Schriftgröße
p Paragraph

Der „meta“-Tag in HTML erlaubt es dem Autor zusätzliche, nicht sichtbare, Informationen über eine Webseite anzugeben wie z.B. Schlüsselwörter oder eine Kurzbeschreibung. Da diese Informationen vom Autor der Seite selbst stammen, ist zumindest eine Überprüfung der Zuverlässigkeit notwendig. Im Folgenden werden meta-Tags nicht näher betrachtet, da es gerade das Ziel der computerlinguistischen und statistischen Analyse der Texte ist derartige Informationen aus den Texten zu extrahieren. Diese Methoden werden im Kapitel 2.5 „Text Mining“ vorgestellt.
Derartige „meta-Tags“ sind von der Verwendung im „Semantic Web“ (vgl. Berners-Lee, Hendler und Lassila, 2001), die eine Metadaten-Infrastruktur für ein maschinenlesbares Web aufbauen will, abzugrenzen. Meta Daten sind dabei „Daten über Daten“ (vgl. Blumauer und Pellegrini, , S. 11). Im Zuge des Semantic Web sollen Ontologien und Taxonomien (vgl. 2.5.5.1. Hintergrundwissen) Ordnung und Standardisierung in das (chaotische) Web bringen und Webdokumente auch für Maschinen verständlich machen. Diese Thematik wird an dieser Stelle nicht weiter ausgeführt, es bleibt jedoch anzumerken, dass es kaum brauchbare, praktische Ergebnisse gibt und an der Sinnhaftigkeit von vielen Projekten gezweifelt werden kann (vgl. Ziegler, 2006c, S. 56). Im letzten Kapitel wird darauf aus einer praktischen Perspektive noch einmal eingegangen, um abzuschätzen, wie sich das Web entwickeln könnte bzw. schon entwickelt hat und welchen Einfluss das auf das Forschungsfeld Text Mining haben könnte.