Data Mining und Knowledge Discovery in Databases

<< The nontrivial extraction of implicit, previously unknown, and potentially useful information from data >>

Frawley, Piatetsky-Shapiro und Matheus

Der Begriff „Data Mining (DM)“ kann als Datenmustererkennung übersetzt werden und bezeichnet einen Prozess des „Grabens“ oder „Schürfens“ nach Informationen bzw. Wissen in Datenbeständen (vgl. Alpar und Niederreichholz 2000, S. 3).

Häufig wird der DM Prozess mit der Metapher des Goldschürfens veranschaulicht. Wissen ist das Gold in den Datenbeständen nach dem heute gegraben wird. Die Ergebnisse werden in Anlehnung an Goldbarren deshalb auch als „Knowledge Nuggets“ (Wissensbarren) bezeichnet. Der Begriff wurde zuerst in der Statistik und in der Forschung zu Datenbankmanagementsystemen verwendet. Dabei stand die Ermittlung von Datenmustern bzw. Beziehungen zwischen den betrachteten Daten durch Algorithmen und Computerprogramme im Vordergrund (vgl. Alpar und Niederreichholz 2000, S. 3). Die Vorgehensweise war dabei hypothesengetrieben: Annahmen über Datenzusammenhänge wurden mit Hilfe der Daten und Algorithmen entweder bestätigt oder verworfen. In der künstlichen Intelligenz entwickelten Forscher Algorithmen, die umgekehrt, Hypothesen aus den Daten berechneten, die neu und „interessant“ sein sollten. Diese Hypothesen müssen anschließend überprüft und interpretiert werden.
Bevor mit irgendwelchen Daten gerechnet werden kann, müssen diese aufbereitet werden. Die Auswahl, Vorverarbeitung und Transformation der Daten nimmt in der Regel 75-85% der Gesamtanstrengungen im Data Mining Prozess ein und hat starken Einfluss auf die Qualität des Gesamtergebnisses (vgl. Alpar, Niederreichholz, 2000, S. 6). Die eigentlichen Berechnungen sind nur ein Schritt im gesamten Prozess der Erkennung von Mustern in Daten, weswegen der Begriff „Knowledge Discovery in Databases“ (KDD) von Forschern der Künstlichen Intelligenz eingeführt wurde (vgl. Fayyad et. al, 1996, S. 39).
Weiter zur Data Mining Definition