Ausgangspunkt für Text Mining Projekte ist also eine betriebswirtschaftliche Ziel- bzw. Problemstellung. Um die Texte aufzubereiten und in eine strukturierte Form zu überführen werden Methoden aus Informatik, Statistik, Computerlinguistik und dem maschinellen Lernen verwendet. Dieses Kapitel untersucht Methoden, die für die Dokumentaufbereitung und die (Text) Mining Analyse verwendet werden können.
Computerlinguistische Verfahren (auch bekannt als „Natural Language Processing (NLP)“) erschließen die Texte linguistisch. Die Texte werden zerlegt und in eine strukturierte Form überführt. Häufig wird dafür eine Repräsentation der Texte im Vektorraummodell gewählt, bei dem die Texte in eine Term-Dokument Matrix überführt werden (vgl. Spiliopoulou und Winkler, 2002, S. 118). Die einzelnen Satzelemente werden vordefinierten Spalten zugeordnet, um Data Mining Verfahren anwendbar zu machen, die nun Muster und Regularitäten in den transformierten bzw. strukturierten Textbeständen erkennen können.
Zur maschinellen Aufbereitung, insbesondere zur semantischen Analyse wird Hintergrundwissen bereitgestellt: Wörterbücher, Ontologien, Listen von Eigennamen, Listen von Abkürzungen, Listen der Elemente einer Auszeichnungssprache (z.B. HTML) etc. (vgl. Spiliopoul und Winkler, 118). Im folgenden Abschnitt werden dazu die semantischen Ansätze Taxonomie, Thesaurus, Topic Map und Ontologie erläutert.