Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Text Mining
Links | Kommentare

Datenaufbereitung im Text Mining

Ausgangspunkt für Text Mining Projekte ist also eine betriebswirtschaftliche Ziel- bzw. Problemstellung. Um die Texte aufzubereiten und in eine strukturierte Form zu überführen werden Methoden aus Informatik, Statistik, Computerlinguistik und dem maschinellen Lernen verwendet. Dieses Kapitel untersucht Methoden, die für die Dokumentaufbereitung und die (Text) Mining Analyse verwendet werden können.

Computerlinguistische Verfahren (auch bekannt als „Natural Language Processing (NLP)“) erschließen die Texte linguistisch. Die Texte werden zerlegt und in eine strukturierte Form überführt. Häufig wird dafür eine Repräsentation der Texte im Vektorraummodell gewählt, bei dem die Texte in eine Term-Dokument Matrix überführt werden (vgl. Spiliopoulou und Winkler, 2002, S. 118). Die einzelnen Satzelemente werden vordefinierten Spalten zugeordnet, um Data Mining Verfahren anwendbar zu machen, die nun Muster und Regularitäten in den transformierten bzw. strukturierten Textbeständen erkennen können.
Zur maschinellen Aufbereitung, insbesondere zur semantischen Analyse wird Hintergrundwissen bereitgestellt: Wörterbücher, Ontologien, Listen von Eigennamen, Listen von Abkürzungen, Listen der Elemente einer Auszeichnungssprache (z.B. HTML) etc. (vgl. Spiliopoul und Winkler, 118). Im folgenden Abschnitt werden dazu die semantischen Ansätze Taxonomie, Thesaurus, Topic Map und Ontologie erläutert.