Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Artikel
Sentiment Detection
Semantic Web 2.0?
Text Mining Praxis
Links | Kommentare

Sentiment Detection: Erfassung der Polarität einer Aussage

„Sentiment Detection“ bezeichnet eine aktuelle Strömung im Text Mining, mit dem Ziel die Position des Autors zu einem diskutierten Thema bzw. die Polarität einer Aussage richtig zu deuten. Dabei handelt es sich um die komplexe Aufgabe Ironie, Sarkasmus, Bildsprache und Kontext eines Textes für Maschinen verständlich zu machen (vgl. Ziegler, 2006b, S. 106).
Statistische Verfahren und Ansätze des maschinellen Lernens wurden bereits erfolgreich für Produktbewertungen angewendet. Dabei hängt das Ergebnis stark von der untersuchten Domäne ab. Bei Filmbewertungen ist die Qualität der Klassifikation nur knapp über einer willkürlichen Entscheidung, wohingegen bei Automobilen das Ergebnis besser ist (vgl. Ziegler, 2006b, S. 108). Dies ist dadurch zu begründen, weil bei Filmbewertungen oft auch auf den Inhalt Bezug genommen wird und eine „düstere Atmosphäre“, „Angst einflößende Inszenierung“ oder „grauenhafte Endzeitwelt“ für einen Horrorfilm als durchaus positiv zu werten ist, für ein Liebesdrama wohl eher negativen Charakter hat. Die Polarität der Aussagen „schnell“, „sparsam“ und „sportlich“ für Automobile ist leichter erfassbar.
Statistische Ansätze müssen an den jeweiligen Anwendungskontext „antrainiert“ werden und versagen, wenn die Anwendungsdomäne nicht deutlich umrissen ist, wie dies beispielsweise bei Web Dokumenten, Nachrichten oder Pressemitteilungen der Fall ist.
Computerlinguistische Verfahren sind komplexer, aber universeller einsetzbar. Bei allgemeinen Dokumenten sind sie den rein statistischen Verfahren überlegen. Trotz ausgefeilter Algorithmen, vor allem im computerlinguistischen Bereich, sind die Resultate der prototypischen Systeme noch nicht mit denen eines menschlichen Arbeiters vergleichbar. Das Potential und betriebswirtschaftliche Interesse an dieser Technologie zeigt sich jedoch durch die intensive und fortschreitende Forschung von industriellen Größen wie Microsoft, IBM und NEC (vgl. Ziegler, 2006b, S. 108-109).

Übersicht