Text Mining. Wissensgewinnung aus freien Texten.

Text Mining - Wissensgewinnung aus Texten

<< Text Mining is the art and technology to extract knowledge from text >>

Gao, Chang und Han

Text Mining wendet Methoden des Data Mining auf unstrukturierte Daten an. Zunächst wird in diesem Kapitel das noch junge Forschungsgebiet von verwandten Forschungsfeldern abgegrenzt. Es folgt eine Definition des Begriffs und eine Beschreibung des Text Mining Prozess. Anschließend werden der KDD-Prozess und der Text Mining Prozess miteinander verglichen und gezeigt, dass sich die Prozesse vor allem in der Phase der Vorverarbeitung unterscheiden. Dazu werden dann im nächsten Punkt Methoden beschrieben, um freie Texte zu strukturieren und zu analysieren. Abschließend werden die einzelnen Aufgaben des Text Mining beschrieben.

Abgrenzung

Die Abgrenzung des Forschungsgebiets Text Mining von verwandten Gebieten wie IR, Informationsextraktion, Text Klassifikation, Maschinelles Lernen, Web- und Data Mining ist in der Literatur und in der Praxis nicht immer eindeutig.

IR beschäftigt sich, wie bereits erwähnt, mit dem Wieder finden von ganzen Dokumenten in einer Textsammlung, um einen bestimmten Informationsbedarf zu decken (vgl. Kapitel Information Retrieval im Web). In der Regel gibt der Benutzer Schlüsselwörter ein, um die gewünschten Dokumente zu beschreiben. Als Ergebnis erhält er eine Liste aller relevanten Dokumenten, die nach Relevanz geordnet sind. Zentrale Funktion eines IR Systems ist die Speicherung der Texte in derartiger Form dass diese wiedergefunden werden können (vgl. Ferber, 2003, S. 21). Ein IR System kann Grundlage für die Selektion und anschließende Weiterverarbeitung der Texte innerhalb eines Text Mining Prozesses sein. Die Überführung gefundener Texte bzw. Textteile in eine vordefinierte Struktur einer Datenbank kann bereits im IR System z.B. durch IE erfolgen.

Während IR Systeme relevante Texte bezüglich einer Abfrage finden, arbeitet ein IE System auf einer feineren Granularität. Auf Basis von definierten Regeln analysieren IE Systeme Texte einer Dokumentsammlung und extrahieren spezifische Wörter bzw. Textteile (vgl. Cunningham, 2004, S. 3).
Cunningham (2004, S. 1ff) beschreibt IE als „the process deriving disambiguated quantifiable data from natural language texts“ für einen präzise vordefinierten Informationsbedarf.

Für das IE ist ein relativ hoher Vorverarbeitungsaufwand erforderlich, um die gewünschten Daten bzw. Textteile (auch „snippets“ genannt) zu beschreiben. Dies kann durch die Erstellung von formalen Regeln erfolgen. Eine weitere Möglichkeit ist die gewünschten Wörter bzw. Phrasen in einem ersten Schritt manuell auszuzeichnen (annotieren). Anschließend werden daraus automatisch Regeln generiert, die auf weitere Dokumente angewendet werden können (vgl. Mooney und Nahm, 2003, S. 142).
Unstrukturierte Texte werden durch IE in eine tabellarische Form überführt und in der Regel in einer Datenbank gespeichert. Die zu extrahierenden Elemente werden klar definiert und sind auf einen bestimmten Informationsbedarf hin ausgerichtet. Derartige Elemente können z.B. Name, Ortschaft, Datum für die Auffindung von Veranstaltungen oder Name, Telefonnummer, Adresse für die Sammlung von Adressen sein.
Data Mining analysiert, wie besprochen, vorwiegend strukturierte Daten aus Datenbanken. Text Mining hingegen versucht unstrukturierte Daten bzw. Texte in eine Struktur zu überführen. (vgl. Weiss et. al, 2005, S. 3) Web Mining kann als Anwendung von Data Mining bzw. Text Mining auf das Web verstanden werden (vgl. Mehler und Wolff, 2005, S. 7).

Weiter zur Text Mining Definition