Die vorliegende Seminararbeit thematisiert einen Bereich der Informatik, genauer gesagt der Datenwissenschaft, der in dem letzten Jahrzehnt immer mehr an Bedeutung gewonnen und große Fortschritte erzielt hat – Text Mining.
Im Zeitalter Big Data nimmt das Aufkommen von digitalen Informationen enorm zu, das aufgrund der günstigen und unbegrenzt verfügbaren Speicherung ermöglicht wird.
Experten gehen jedoch davon aus, dass bis zu 80 Prozent aller Unternehmensinformationen in Form unstrukturierter Textdokumente gespeichert sind. So liegen Kundenrezensionen, Patentanmeldungen oder Geschäftsberichte unstrukturiert vor. Mithilfe von linguistischen, statischen und mathematischen Verfahren sollen durch das Text Mining gezielt Muster und Strukturen gefunden und Informationen extrahiert werden. Im Vordergrund der folgenden Seminararbeit stehen die im Kontext Text Mining möglichen Analysemethoden Textklassifikation und Textclustering und mögliche Visualisierungstechniken. Ziel der Arbeit ist es, den Einsatz von Visualisierungen zu veranschaulichen und den Nutzen hervorzuheben.
Um einen ersten Einblick in die Thematik zu bekommen, werden im ersten Teil der Arbeit die Begriffe Text Mining und Informationsvisualisierung definiert und eingeordnet. Dabei liegt das Hauptaugenmerkt einerseits auf den typischen Prozessschritten des Text Mining und auf die Abgrenzung vom Text Mining zum Data Mining, andererseits auf den positiven Zugewinn durch die visuelle Wahrnehmung von Informationen und deren Strukturen und die Unterscheidung von Informationsvisualisierung und wissenschaftlichen Visualisierungen. Anschließend werden zwei Methoden innerhalb des Text Mining vorgestellt: Textklassifikation, welches die Sentimentanalyse beinhaltet, und Textclustering, das das Topic Modeling einschließt. Weiterhin werden vier Visualisierungstechniken vorgestellt, wovon die letzten beiden jeweils für die Sentimentanalyse und für das Topic Modeling vorgesehen sind. Abschließend werden im Resümee die Ergebnisse zusammengefasst.
Inhaltsverzeichnis
1.Einleitung
2.Hauptteil
2.1.Begriffliche Klärungen
2.1.1. Text Mining
2.1.2. Informationsvisualisierung
2.2.Text Mining Methoden
2.2.1. Textklassifikation: Sentimentanalyse
2.2.2. Textclustering: Topic Modeling
2.3.Visualisierungstechniken
2.3.1. Word cloud: Inhalt auf Wortlevel
2.3.2. Word Tree: Stichwort im Kontext
2.3.3. Emotionen im Zeitverlauf
2.3.4. Topic Map: interaktive Graphen-basierte Topic Cloud
3.Resümee und Ausblick
4.Literaturverzeichnis
Abbildungsverzeichnis
Abbildung 1: Word cloud für positive und negative Beiträge über Mobiltelefone (aus: Piazza/Davcheva (2005))
Abbildung 2: Alle Vorkommnisse von "if love" in Romeo and Juliet (aus: Wattenberg/Viégas (2008))
Abbildung 3: Word tree mit allen Vorkommnissen von "if love be" in Romeo and Juliet (aus: Wattenberg/Viégas (2008))
Abbildung 4: Mögliche Interaktionen in einem word tree. (aus: Wattenberg/Viégas (2008))
Abbildung 5: Sentiment-Streamgraph für das Stichwort "Flacco", MVP (Most Valuable Player) beim Super Bowl 2013. Rot ist negativ, grau ist neutral, blau ist positiv. Oben: Gesamthäufigkeit der Tweets, geteilt nach Gefühlsart. Unten: Stimmung in Prozent des Gesamtvolumens (aus: Brooks et al. (2014))
Abbildung 6: Überblick über alle topics. Topics, die Stichworte teilen, sind verbunden und näher zueinander positioniert. Die Dicke der Verbindung gibt an, wie kennzeichnend das Stichwort für ein topic ist. Die Knotengröße eines topics zeigt die Verbreitung im Textkorpus an (aus: Rönnqvist et al. (2014))
Abbildung 7: (Links): Fokus auf topic T3. Interpretation wird durch Farbgebung und Gewichtung der Stichworte unterstützt. (Rechts): Fokus auf verbindendem Stichwort “mobile“. Verbundene topics T3 und T6 sind farblich hervorgehoben (aus: Rönnqvist et al. (2014))
1. Einleitung
Die vorliegende Seminararbeit thematisiert einen Bereich der Informatik, genauer gesagt der Datenwissenschaft, der in dem letzten Jahrzehnt immer mehr an Bedeutung gewonnen und große Fortschritte erzielt hat – Text Mining.
Im Zeitalter Big Data nimmt das Aufkommen von digitalen Informationen enorm zu, das aufgrund der günstigen und unbegrenzt verfügbaren Speicherung ermöglicht wird. Experten gehen jedoch davon aus, dass bis zu 80 Prozent aller Unternehmensinformationen in Form unstrukturierter Textdokumente gespeichert sind. So liegen Kundenrezensionen, Patentanmeldungen oder Geschäftsberichte unstrukturiert vor. Mithilfe von linguistischen, statischen und mathematischen Verfahren sollen durch das Text Mining gezielt Muster und Strukturen gefunden und Informationen extrahiert werden.
Im Vordergrund der folgenden Seminararbeit stehen die im Kontext Text Mining möglichen Analysemethoden Textklassifikation und Textclustering und mögliche Visualisierungstechniken. Ziel der Arbeit ist es, den Einsatz von Visualisierungen zu veranschaulichen und den Nutzen hervorzuheben.
Um einen ersten Einblick in die Thematik zu bekommen, werden im ersten Teil der Arbeit die Begriffe Text Mining und Informationsvisualisierung definiert und eingeordnet. Dabei liegt das Hauptaugenmerkt einerseits auf den typischen Prozessschritten des Text Mining und auf die Abgrenzung vom Text Mining zum Data Mining, andererseits auf den positiven Zugewinn durch die visuelle Wahrnehmung von Informationen und deren Strukturen und die Unterscheidung von Informationsvisualisierung und wissenschaftlichen Visualisierungen. Anschließend werden zwei Methoden innerhalb des Text Mining vorgestellt: Textklassifikation, welches die Sentimentanalyse beinhaltet, und Textclustering, das das Topic Modeling einschließt. Weiterhin werden vier Visualisierungstechniken vorgestellt, wovon die letzten beiden jeweils für die Sentimentanalyse und für das Topic Modeling vorgesehen sind.
Abschließend werden im Resümee die Ergebnisse zusammengefasst.
2. Hauptteil
2.1. Begriffliche Klärungen
Für ein besseres Verständnis der Arbeit sollen im Folgenden sollen die Begriffe Text Mining und Informationsvisualisierung erläutert werden.
2.1.1. Text Mining
Text Mining bezeichnet den analytischen Prozess, bei dem neues Wissen aus einer großen Menge unstrukturierter Daten, d.h. Daten in Textform, gewonnen wird. Hierbei werden unter anderem Software und Techniken anderer Forschungsgebiete wie Natural Language Processing, Information Retrieval, Information Extraction und Artificial Intelligence angewandt, um Konzepte, Muster, Themen (auch topics), Stichworte und andere Attribute zu identifizieren. Der enorme Fortschritt bei Datenbanken und die Explosion des Internets und digitalen Bibliotheken hat zu diesen Textdatenbanken geführt. Es wird geschätzt, dass rund 85% der weltweiten Daten in unstrukturierten Formaten gespeichert sind (Vgl. Berry/Kogan, 2010, S.183).
Text Mining tritt oftmals im Zusammenhang mit Data Mining auf bzw. wird als eine besondere Form innerhalb des Data Mining betrachtet. Hauptsächlich unterscheiden sich diese zwei Analysemethoden aufgrund ihrer zugrundeliegenden Datenbasis. Während im klassischen Data Mining strukturierte Daten vorliegen, die in der Regel laut der Terminologie relationaler Datenbanken in der ersten Normalform vorkommen, werden im Text Mining unstrukturierte Daten, Textdokumente, als Datengrundlage verstanden. Text Mining repräsentiert folglich die Ausübung von Data Mining Verfahren auf Textdokumente. So ähnelt der allgemeine Aufbau dem des klassischen Data Mining, aber unterscheidet sich in der Datenaufbereitung aufgrund der zusätzlichen linguistischen Aufbereitung der Daten.
Hippner und Räntzmann (2006) beschreiben den Prozess des Text Mining mit diesen aufeinanderfolgenden Schritten: Aufgabendefinition, Dokumentselektion, Dokumentaufbereitung, (Text) Mining Methoden, Interpretation und Evaluation und schließlich die Anwendung. Hier soll nun eine kurze Erläuterung der einzelnen Schritte erfolgen, vor allem der Dokumentaufbereitung. In der Aufgabendefinition werden die Problemstellung festgelegt und die Ziele daraus abgeleitet. Anschließend werden passende und relevante Textdokumente, beispielsweise E-Mails, Berichte, ausgewählt. Bei der Dokumentaufbereitung bedarf es mehrerer Schritte. Zunächst werden aus den Textdokumenten Terme extrahiert. Diese können sowohl aus einem Wort bzw. Wortstamm als auch aus mehreren Wörtern bestehen (z.B. „Text Mining“). Mehrere Verfahren des Natural Language Processing können zur Extrahierung von Termen verwendet werden.
Die morphologische Analyse untersucht Wortvarianten eines Wortes. Diese verschiedenen Varianten werden auf ihren gemeinsamen Wortstamm reduziert. Beispielsweise wird aus „Wortes“ und „Wörter“ „Wort“ während „gesehen“ und „sah“ zu „seh“ wird. Auf diese Weise wird die Komplexität der Analyse reduziert. Im Fokus der syntaktischen Analyse liegt das Markieren einzelner Satzbestandteile. Alle Wörter in einem Satz werden mit einem Part-of-Speech (POS)-Tagging versehen, das jedem Wort seine Wortart zuweist (z.B. Substantiv, Verb, Adjektiv). Die semantische Analyse übernimmt die Erkennung von kontextuellem Wissen und die Zuweisung von Bedeutung der Einheiten innerhalb eines Satzes. Auf diese Weise soll identifiziert werden, ob es sich beispielsweise beim Wort „Birne“ um eine Lampe oder um ein Obst handelt.
Nach der Aufbereitung der zuvor unstrukturierten Daten erfolgen die klassischen (Text) Mining Methoden (z.B. Klassifikation, Segmentierung, Abhängigkeitsanalyse). Zuletzt werden die generierten Ergebnisse evaluiert und interpretiert sowie im Falle einer guten Kombination aus Relevanz, Neuigkeit und Interesse in den Zielbereichen angewendet (Vgl. Ebd., S.289).
Anwendung finden Text Mining Techniken in den unterschiedlichsten Bereichen wie Wirtschaft, Wissenschaft und Politik. Ganz vorne dabei ist die Competitive Intelligence, die darauf abzielt, möglichst frühzeitig neue Kunden-, Konkurrenz- und Marktentwicklungen aufzudecken. Aber auch bei der automatischen Platzierung von Werbung kommt Text Mining zum Einsatz. Die Wissenschaft nutzt die Verfahren wiederum beispielsweise zur Analyse von Stimmungen auf Social Media während Regierungen die Vorteile des Text Mining unter anderem für die Staatssicherheit zu schätzen wissen.
Text Mining beinhaltet neben den klassischen Prozessschritten des Data Mining und der zusätzlichen linguistischen Datenaufbereitung jedoch auch die Visualisierung der gewonnenen Information. Im nächsten Abschnitt soll die Informationsvisualisierung thematisiert werden.
2.1.2. Informationsvisualisierung
„ Das Ohr ist stumm, der Mund ist taub; aber das Auge vernimmt und spricht. “
Johann Wolfang von Goethe
Schon Goethe stellte fest, dass visuelle Eindrücke durch das Auge mächtig und wirkungsvoll sind. Bereits seit der Antike existieren Schaubilder als visuelle Erklärungen neben den Texten. Angesichts der Explosion an verfügbaren Informationen und Texten in den letzten Jahrzehnten wird die Analyse dieser zunehmenden Datenflut zunehmend komplexer. Das relativ junge Forschungsgebiet der Informationsvisualisierung, das sich Ende der 1980er Jahre herauskristallisiert hat, versucht Antworten auf die Frage zu finden, wie diese Daten zu ergreifen sind und wie Erkenntnisse darüber zu gewinnen möglich ist (Vgl. Preim/Dachselt, 2010, S.435; Vgl. Jäger-Dengler-Harles, 2006, S.417).
Gedankliche Prozesse werden stark durch visuelle Eindrücke geprägt. Sie unterstützen bei der Kommunikation von Ideen, dem Erfassen von Beziehungen von Daten und dem Wahrnehmen von Zusammenhängen. Card et al. (1999) definiert: „The purpose of visualization is insight, not pictures“. Neben Visualisierungen zum Zwecke der Werbung, der Unterhaltung oder der simplen Informationspräsentation sind Informationsvisualisierungen keine illustrativen Schmuckstücke oder Ergänzungen zu Texten, denn im Fokus steht das Gewinnen von Erkenntnissen. Beispiele für diese Art von Visualisierungen, die schnelle Einblicke und begründete Entscheidungen ermöglichen, sind „Liniennetze von U-Bahnen, Fahrpläne, Diagramme von Unternehmensstrukturen oder auch Darstellungen von georeferenzierten Wahlergebnissen“ (Vgl. Preim/Dachselt, 2010, S.437).
Informationsvisualisierung ist nur eine von vielen Arten von Visualisierungen und lässt sich von anderen Formen aufgrund entscheidender Aspekte abgrenzen. Wissenschaftliche Visualisierungen beispielsweise repräsentieren den traditionellen Bereich von Visualisierungen. Beispielsweise werden physikalische Daten aus den Anwendungsdomänen Klimaforschung, Geowissenschaft oder Strömungsmechanik häufig sensor-basiert erfasst und rufen ein konkretes (und kein abstraktes) mentales Bild hervor. Informationsvisualisierung jedoch als deutlich jüngerer Visualisierungszweig verarbeitet meist abstrakte Daten ohne physikalischen Bezug zum Zwecke des Erkenntnisgewinns. Abstrakte Daten können in diesem Fall „Vertriebszahlen einer Firma, hierarchische Strukturen, die als Bäume repräsentiert sind, Datenrelationen und Verknüpfungen in Form von Graphen, Textfragmente von Webdokumenten oder Programmcode aus dem Softwareentwicklungsprozess“ sein (Vgl. Ebd.).
Ein grundlegender Unterschied zwischen den Visualisierungen folgt aus der Herkunft der Daten und existiert somit aufgrund der Zielgruppen von Nutzern. Geophysikalische oder thermodynamische Daten werden zumeist von Experten aus den jeweiligen Fachbereichen interpretiert und richten sich im Gegensatz zu Informationsvisualisierungen nicht an eine breite Masse ohne vorausgehende Vorkenntnisse. So ist ein zentrales Kriterium die leichte Zugänglichkeit und Verständlichkeit für Alltagsnutzer. Darüber hinaus erfüllen sie ebenfalls eine gewisse grafische und ästhetische Beschaffenheit und sorgen teilweise durch interaktive Möglichkeiten und einem Unterhaltungswert für eine Unterstützung des Erkenntnisgewinns (Vgl. Ebd., S.442).
Nach Schumann und Müller (2000) lassen sich drei Stufen als wichtige Ziele der Visualisierung unterscheiden: die explorative Analyse, die konfirmative Analyse und die Präsentation. Die explorative Analyse umschreibt eine ungerichtete Suche nach Informationen ohne bestimmte Vermutungen über die Daten und ihre Gegebenheiten. Die konfirmative Analyse hingegen beschreibt eine zielgerichtete, auf Hypothesen basierte Suche, bei der mithilfe von Visualisierungen Annahmen bestätigt werden sollen. Als dritter Aspekt gilt die Präsentation der Informationsvisualisierungen. Schließlich sollen diese Erkenntnisse visuell aufdecken und Dritten einen übersichtlichen Einblick geben.
Nachdem der Kontext dieser Seminararbeit und vorallem die Begrifflichkeiten Text Mining und Informationsvisualisierung erläutert wurden, soll nun eine Auswahl an typischen Text Mining Methoden folgen, nämlich Textklassifikation und Textclustering, und im Anschluss daran mögliche Visualisierungstechniken vorgestellt werden.
2.2. Text Mining Methoden
Wie bereits oben vermerkt, beinhalten typische Text Mining Methoden diverse Anwendungen, mit denen Textdokumente analysiert werden können. Erwähnenswert sind unter anderem die Textklassifikation und das Textclustering. Nachfolgend sollen die genannten Verfahren näher erläutert werden.
2.2.1. Textklassifikation: Sentimentanalyse
Textklassifikation oder auch Textkategorisierung beschreibt das Verfahren, bei dem Texte in Abhängigkeit ihres semantischen Inhaltes in eine oder mehrere vorgegebene Klassen (oder Kategorien) eingeordnet werden. Anfänge der Textklassifikation lassen sich in der Literatur- und Bibliothekswissenschaft finden, in der manuelle Klassifikationsmodelle vorrangig Bestand hatten. Aufgrund vom massiven Volumen von beispielsweise Online Texten, Internet news feeds, elektronische E-Mails, Unternehmensdatenbanken oder digitale Literaturansammlungen kommen in der Informationswissenschaft und Informatik hingegen in den letzten Jahrzehnten zunehmend algorithmische und automatische Modelle zum Einsatz, um die genannte Herausforderung zu meistern.
Beliebte Techniken, auch Classifier genannt, in der Textklassifikation sind unter anderem Naive Bayes, Support Vector Machines und Maximum Entropy (Vgl. Piazza/Davcheva, 2015, S.143). Dabei existieren zwei Verfahren des Anlernens der Classifier: das überwachte Lernen nutzt die Ausgangslage, dass die klassifizierenden Attribute für die Trainingsmenge vorab bekannt sind. Anhand der Testmenge werden die Ergebnisse anschließend überprüft. Das unüberwachte Lernen verzichtet auf bekannte klassifizierende Attribute und lässt den Algorithmus selbst die geeignete Einteilung finden. Die Textklassifikation ist ein typisches überwachtes Lernverfahren (Vgl. Felden et al., 2006, S.9).
Ein bekanntes und weit verbreitetes Anwendungsbeispiel ist die Sentimentanalyse bzw. das Opinion Mining. Sie beschreibt den Prozess, bei dem Texte basierend auf Meinungen und Emotionen ihrer Verfasser in Klassen eingeteilt werden. Die Analyse kann in Hinblick auf ein bestimmtes Thema oder Stichwort angewendet werden oder um eine generelle inhaltliche Polarität eines Dokuments zu erfassen. Die Sentimentanalyse wird mithilfe der überwachten Klassifikation mittels Machine Learning Methoden durchgeführt. Besonders im Fall von Social Media Eingaben kann sie hilfreich sein, um zu erkennen, ob beispielsweise ein Produkt, eine Unternehmensmarke oder Servicedienstleistungen positiv, negativ oder neutral kommentiert werden (Vgl. Oliveira et al., 2015, S.230; Vgl. Ignatow/ Mihalcea, 2016, S.149ff.).
2.2.2. Textclustering: Topic Modeling
Textclustering ist eines der beliebtesten Text Mining Techniken und gehört zu den unüberwachten Lernverfahren. Es verfolgt das Ziel Texte so zu gruppieren, dass die Ähnlichkeit von Texten in einem Cluster sehr hoch und die Ähnlichkeit zu anderen Clustern sehr niedrig ist. Die Ähnlichkeit zwischen den Texten wird dabei anhand einer Ähnlichkeitsfunktion berechnet. Die Gruppierung kann auf verschiedenen Granularitäten der Textdaten angewendet werden, seien es Dokumente, Paragraphen, Sätze oder Terme (Vgl. Aggarwal/Zhai, 2012, S.78).
Textdaten weisen eine Reihe einzigartiger Eigenschaften auf, die den Entwurf spezieller Algorithmen erfordern. Die Unterscheidungsmerkmale der Texte sind folgende: Die Dimensionalität der Textrepräsentation ist sehr groß, die zugrunde liegenden Daten sind jedoch spärlich. Das Lexikon, aus dem die Dokumente gezeichnet werden, kann also in der Größenordnung von 105 sein, aber ein bestimmtes Dokument kann nur einige hundert Wörter enthalten. Dieses Problem ist noch schwerwiegender, wenn die zu gruppierenden Dokumente sehr kurz sind wie beispielsweise im Falle von Tweets. Weiterhin kann das Lexikon eines gegebenen Dokumentenkorpus groß sein, während die Wörter typischerweise miteinander korreliert sind. Dies bedeutet, dass die Anzahl der Hauptkomponenten in den Daten viel kleiner als der Merkmalsraum ist. Dies erfordert ein sorgfältiges Design von Algorithmen, die Wortkorrelationen im Textclustering berücksichtigen können. Die Anzahl der Wörter in den verschiedenen Dokumenten kann stark variieren. Daher ist es wichtig, die Dokumentrepräsentationen während des Clustering entsprechend zu normalisieren (Vgl. Ebd., S.79).
Eine besondere und gängige Form des Textclustering ist das Topic Modeling. Das bekannteste Verfahren darunter ist wiederum das Latent Dirichlet Allocation (LDA). Das LDA Topic Model kann als ein Wahrscheinlichkeitsmodell beschrieben werden, das annimmt, dass bei einem Dokumentenkorpus jedes Dokument eine Verteilung über die topics und wiederum jedes topic eine Verteilung über die Wörter im Korpus darstellt. Es verwendet ein generatives Modell, um die Erstellung von Dokumenten zu imitieren. Die Idee hinter dem LDA-Modell ist folglich, dass Dokumente als zufällige Kombinationen aus latenten topics in einem Korpus dargestellt werden können. Topic Maps sind auf verschiedene Bereiche wie Wissenschaft, Politik, Betrugsanalyse und Webnutzung anwendbar (Vgl. Buckley, 2015, S.241; Vgl. Blei et al., 2003, S.993f.).
Zusammenfassend lässt sich sagen, dass die Textklassifikation das überwachte Lernverfahren beschreibt, bei dem Textdokumente in eine oder mehrere vorgegebene Klassen eingeordnet werden. Die Sentimentanalyse wird in diesem Fall in Abhängigkeit unterschiedlicher Emotionen durchgeführt. Als Gegensatz dazu ist das Textclustering ein unüberwachtes Lernverfahren, das Textdokumente so gruppiert, dass sehr ähnliche Texte in einem Cluster zu finden sind und die Ähnlichkeit von einem Cluster zu einem anderen Cluster sehr niedrig bleibt. Topic Models ist eine spezielle Form, bei der latente topics aufgedeckt und die dazugehörigen Stichwörter zugeordnet werden.
Um die Ergebnisse dieser Analysen darzustellen und einen bleibenden Eindruck der Daten und Zusammenhänge zu hinterlassen, finden Visualisierungen Anwendung. Im Folgenden sollen vier Visualisierungstechniken präsentiert werden.
[...]