Diese Arbeit untersucht, inwiefern Data-Mining notwendig ist und ob es das eigene Geschäftsmodell, sich weiter auszubauen und nachhaltig Erfolg zu sichern, unterstützt. Es wird das Ziel verfolgt, anhand des Zweckes und der Methoden von Data-Mining am Beispiel von 'HeyCash' die Relevanz dessen zu ergründen sowie die Mehrwerte zu finden und zu erläutern. Darüber hinaus werden anhand von drei ausgewählten Methoden die Funktionsweise und der Nutzen von Data-Mining gemessen und bewertet.
Die Macht und Möglichkeiten von Datenbesitz ist unabdingbar und allgegenwärtig. Ein Synonym für dieses Szenario stellt das sogenannte 'Big Data' dar. Big Data ist eine der bedeutendsten Entwicklungen im digitalen Zeitalter. Es steht für große, komplexe und unstrukturierte Datenmengen. Die Daten nehmen tagtäglich exponentiell zu und die damit einhergehenden Problematiken, wie der Datenschutz, müssen diskutiert werden.
Es zeigt sich aber auch, dass durch Daten erhebliche Potenziale für die Gesellschaft und vor allem für Unternehmen entstehen. Viele neuartige Geschäftsmodelle basieren auf Daten, woraus neue Dienstleistungen und Produkte resultieren. Die Auswertung der immer größer werdenden Datenmengen stellt somit eine der lukrativsten Herausforderungen dieser Zeit dar. Somit kommt dem Data-Mining eine immer größere Bedeutung zu.
Inhaltsverzeichnis
1 Einleitung
1.1 Hinführung zur Thematik
1.2 Problemstellung und Zielsetzung der Arbeit
1.3 Aufbau der Arbeit
2 Theoretischer Teil
2.1 Data Mining
2.1.1 Begriffsdefinition „Data Mining"
2.1.2 Abgrenzung von verwandten Begriffen
2.2 Data Mining Prozess
2.3 Data Mining Methoden
2.3.1 Segmentierung: Clustering
2.3.2 Klassifikation: Entscheidungsbaum
2.3.3 Abhängigkeitsanalyse: Korrelation
3 Methodischer Teil
3.1 „HeyCash“- Finanz Startup
3.2 Ausgewählte Data Mining Methoden am Beispiel von HeyCash
3.2.1 Clustering
3.2.2 Entscheidungsbaum
3.2.3 Korrelationsanalyse
3.3 Vor- und Nachteile der ausgewählten Data Mining Methoden
4 Diskussion
4.1 Untersuchungsobjekt und Methodik
4.2 Gütekriterien
5 Fazit
Literaturverzeichnis
Abbildungsverzeichnis
1 Einleitung
1.1 Hinführung zur Thematik
„Alles was mit Daten passieren kann, wird irgendwann passieren."1
Dieses Sprichwort umschreibt ein schleichendes Szenario, welches bereits längst verbreitet und einen beachtlichen Teil in unserer Gesellschaft sowie in Unternehmen Einfluss eingenommen hat. Die Macht und Möglichkeiten von Datenbesitz ist unabdingbar und allgegenwärtig. Ein Synonym für dieses Szenario stellt das sog. „Big Data" dar. Big Data ist eine der bedeutendsten Entwicklungen im digitalen Zeitalter. Es steht für große, komplexe und unstrukturierte Datenmengen. Die Daten nehmen tagtäglich exponentiell zu und die damit einhergehenden Problematiken, wie bspw. der Datenschutz, müssen diskutiert werden. Es zeigt sich aber auch, dass durch Daten erhebliche Potenziale für die Gesellschaft und vor allem für Unternehmen entstehen. In den letzten Jahren zeigen Unternehmen wie Facebook, Google oder Amazon, welche Macht und Wertschöpfung durch Daten erreicht werden kann.2 Um wertschöpfende Erkenntnisse aus dem Big Data zu gewinnen, bedarf es einerseits der Weiterentwicklung von Datenbanktechnologien, sowie andererseits an vielen verschiedenen Datenanalysemethoden. Data Mining steht sinnbildlich für die Möglichkeit zur Datenanalyse. Data Mining versucht, durch vorhandene und strukturierte Daten Erkenntnis- und Informationsgewinne zu erzielen. Oftmals fehlt es den Daten an Struktur und Sinnhaftigkeit, da die Datenansammlung nicht in Bezug auf gezielte Fragestellungen stattfindet.3 Aufgrund dessen haben sich aus Data Mining neue Vorgehensweisen, wie dem Text Mining oder dem Web Mining, in den vergangenen Jahren entwickelt. Die Vorgehensweise haben ihre Kernkompetenzen in der Suche von unstrukturierten Daten oder einer spezifischen Suche, bspw. im ECommerce und Social Media. Fest steht, Datenmengen werden in Massen täglich produziert und aus deren Analyse können neue Geschäftsmodelle, eine große Wertschöpfung sowie Macht resultieren.4 Mithilfe eines konkreten, neuartigen Geschäftsmodells sowie unter Anwendung von Data Mining Methoden wird in dieser Arbeit, Data Mining und der Data Mining Prozess wissenschaftlich betrachtet. Daraus werden Handlungsempfehlungen sowie konkrete Nutzenargumente abgeleitet und bewertet.
1.2 Problemstellung und Zielsetzung der Arbeit
Die Relevanz und die Macht durch Daten wird immer größer. Viele neuartige Geschäftsmodelle basieren auf Daten, woraus neue Dienstleistungen und Produkte resultieren. Die Auswertung der immer größer werdenden Datenmengen stellt somit eine der lukrativsten Herausforderungen dieser Zeit dar. Somit kommt dem Data Mining eine immer größere Bedeutung zu.
In dieser Arbeit wird das Ziel verfolgt, anhand dem Zweck und der Methoden von Data Mining, am Beispiel von HeyCash, die Relevanz zu ergründen sowie die Mehrwerte zu finden sowie diese zu erläutern. Darüber hinaus werden anhand von drei ausgewählten Methoden die Funktionsweise und der Nutzen von Data Mining gemessen und bewertet. Daraufhin sollen mithilfe der Erkenntnisse Handlungsempfehlungen abgeleitet werden.
Inwiefern ist Data Mining notwendig bzw. unterstützt das eigene Geschäftsmodell sich weiterauszubauen und nachhaltig den Erfolg zu sichern?
1.3 Aufbau der Arbeit
Im ersten Teil der Arbeit wird das Data Mining nach seiner Relevanz und Aktualität eingeordnet. Der zweite Teil der Arbeit befasst sich mit dem theoretischen Teil auf Basis wissenschaftlicher Literaturquellen. Es wird der Begriff „Data Mining" definiert und abgegrenzt. Anschließend wird der Data Mining Prozess beschrieben. Darauf aufbauend werden drei Data Mining Methoden ausgewählt und beschrieben. Anhand den drei Methoden wird in Kapitel drei, am Beispiel von „HeyCash", eine Analyse durchgeführt.
Im dritten Teil der Arbeit handelt es sich um den methodischen Teil, in welchem zunächst das Geschäftsmodell von „HeyCash" beschrieben wird. Anschließend werden die drei Methoden am Beispiel von HeyCash erläutert und bewertet.
Das vierte Kapitel beinhaltet die Diskussion, in welcher der Fokus auf die kritische Reflexion der Studienmethodik gelegt wird. Im selben Abschnitt werden die Herausforderungen der Durchführungsmethode erläutert sowie die Gütekriterien der Hausarbeit, die als Grundvoraussetzung für wissenschaftliche Standards dienen, überprüft.
Im fünften und letzten Kapitel wird ein Ausblick gegeben und ein Fazit mit den wichtigsten Erkenntnissen gezogen.
2 Theoretischer Teil
2.1 Data Mining
2.1.1 Begriffsdefinition „Data Mining"
Der Begriff „Data Mining" kommt ursprünglich aus dem Wortstamm „to mine" und bedeutet „schürfen nach.5 So bezieht sich das Data Mining u.a. auf den Bergbau „Mining".6 Analog dazu werden beim Data Mining, durch automatisierte Methoden, handlungsrelevante und wertschöpfende Geschäftserkenntnisse, versucht zu finden.7 Dabei wird das Ziel verfolgt, durch eine automatisierte und nichttriviale Suche, Wissen aus Messdaten zu erlangen.8 Data Mining kann es schaffen, nützliche Antworten auf noch nicht gestellte Fragen bis hin zu überraschenden Informationen aus dem weiten Datenmeer zu erforschen.9 Es resultieren Ergebnisse aus dem sich Mustern erkennen lassen, weswegen Data Mining auch als Datenmustererkennung bekannt ist. Täglich werden riesige Datenmengen angesammelt, die oftmals entweder unabhängig voneinander betrachtet werden oder gar nicht genutzt werden. Das Potenzial steckt hier in den Beziehungen der Daten untereinander. So hat sich das Data Mining in der Statistik als eine Art Datenbeziehungsmethode entwickelt. Deshalb beschreibt Fayyad Data Mining als eine Anwendung spezifischer Algorithmen, welche zur Extraktion von Muster aus Daten dienen.10 Entscheidend für den Erfolg von Data Mining ist die Qualität der Daten.11 Das Ziel von Data Mining nach Wissen zu schürfen, impliziert gleichermaßen wonach geschürft wird. Deshalb wird nicht versucht Informationen zu generieren, sondern explizit aus Informationen Wissen zu generieren. Diese Möglichkeit der Wissensgenerierung stellt eine zukünftige Wertschöpfung und somit direktes Gewinn- und Umsatzpotenzial für Unternehmen dar.12 Unabhängig von hilfreichen Data Mining Tools, ist eine zielführende Datenanalyse ein sehr komplexer Prozess. Hier wird nicht nur die richtige Wahl einer passenden Methode oder Verfahren verlangt, sondern auch die Beschaffung der Daten sowie die Befriedigung und Interpretation dessen.13 Hinzukommt, dass Data Mining auf strukturierte Daten basiert, welche vor allem durch moderne Technologien wie künstliche Intelligenz, Statistik und Maschine Learning ermöglicht werden und dementsprechend von ihren Fähigkeiten abhängig ist.14 Zusammenfassend wird unter Data Mining ein Prozess verstanden, welcher eine (halb-)automatisierte Wissensextraktion aus bereits abgespeicherten strukturierten Daten vornimmt. Dabei wir das Ziel verfolgt, unbekannte und nichttriviale Zusammenhänge, Strukturen und Trends in Datenbeständen aufzufinden. Es liegt daher auf der Hand, dass Data Mining ein Prozess ist und eine gewisse Komplexität mit sich bringt. Daher müssen durch mathematische Verfahren, Algorithmen sowie weitere spezielle Verfahren Ergebnisse gefunden werden. Dies kann mithilfe von Datenerhebungen, Datenselektionen, Datenverarbeitungen, Datenanalysen, Interpretationen und Anwendungen erzielt werden. Data Mining liegt nämlich nur dann vor, wenn neue und komplexe Ergebnisse erzielt werden.15
2.1.2 Abgrenzung von verwandten Begriffen
In der Statistik werden häufig erst Hypothesen über Datenzusammenhänge gebildet. Anschließend folgt die Hypothesenüberprüfung und anschließend die Interpretation, bevor Handlungsalternativen abgeleitet werden können. In den achtziger Jahren war es dann möglich, mithilfe von künstlicher Intelligenz aus Daten durch einen Algorithmus automatisch also umgekehrt Hypothesen zu formulieren. Diese Vorgehensweise haben Forscher mit den Begriff „Knowledge Discovery in Databases" kurz „KDD" betitelt. KDD steht somit für den nichttrivialen Prozess, mit der Aufgabe, valide, neue und potenziell nützliche Muster aus Daten zu identifizieren. Data Mining wird in Bezug auf KDD nur als Teil des Ganzen KDD-Prozesses verstanden.16
Darüber hinaus muss Data Mining von Text Mining differenziert werden. Data Mining greift auf strukturierte Daten zurück, wohingegen beim Text Mining unstrukturierte Textdaten vorliegen. Das erfordert weiteres Werkzeug, welches im ersten Schritt die Daten und den Text zunächst organisiert und strukturiert, bevor die eigentliche Modellierung beginnen kann. Bis dato ist Data Mining noch dominierend, jedoch nimmt das Text Mining fortschreitend zu. Das Data Mining liefert im Unternehmenskontext sehr hilfreiche Informationen, wie bspw. die Abstimmung von Angebot und Nachfrage auf Basis vergangener Kaufdaten. Die neue Welt in Form von Big Data umfasst jedoch erheblich mehr Datenmengen, die häufig in Massen unstrukturiert vorliegen. Das Potenzial liegt hier auf der Hand. Es gilt die Daten wertschöpfend auszuwerten, wie u.a. die Daten aus dem Bereich Social Media, welches wiederum unter dem Begriff Web Mining bekannt ist.17
In unserer Umwelt gibt es unendlich viele Daten. Das Datenvolumen und die Datenvielfalt nehmen täglich zu und stellt, gemessen an den Möglichkeiten, erst den Anfang dar. Der wesentliche Unterschied zwischen Big Data und Data Mining ist das Zielbild. Es werden keine weiteren oder bestimmten Daten gesucht, sondern im Fokus stehen die Generierung von Informationen. Daraus lässt sich ableiten, dass beim Data Mining Daten und Informationen mit einer potenziellen Bedeutung für einen Nutzer generiert werden. Wie relevant und groß die Bedeutung letztlich ist, ist oftmals unbekannt.18
2.2 Data Mining Prozess
Im Jahre 2000 wurde mit dem Cross Industry Standard Process kurz „CRISP" ein einheitlicher Data Mining Prozess definiert. Dieser Prozess wird in sechs Phasen unterteilt und als dynamischer Prozess verstanden. Der CRISP-Prozess soll in dieser Arbeit näher erläutert werden und als Grundlage dienen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: CRISP - Data Mining Prozess19 2.2.1 Business Understanding
Im ersten Schritt des Data Mining Prozesses werden die Analysedaten benötigt. Zunächst einmal muss geklärt werden, wo sich die Daten befinden. Hierbei muss ggf. eine getrennte Datenhaltung oder andere Vorschriften beachtet werden. In Summe gilt es, aus den vorhanden Daten, die relevanten Daten für die Analyse herauszufiltern. Es kann vorkommen, dass in einzelnen Bereichen Daten ergänzt werden müssen. Als erstes Ziel sollte eine spartenübergreifende Datenauswahl angestrebt werden. Im selben Schritt werden die angestrebte (Projekt-)Ziele festgelegt. Darüber hinaus kann sich, durch die Gewinnung neuer Informationen, das Unternehmen im Laufe der Zeit umorientieren oder spezialisieren.19 20
2.2.2 Data Understanding
In diesem Prozess werden alle gesammelten Daten zu einem einheitlichen Datensatz zusammengeführt. Hierbei gilt es, mit den Verantwortlichen zu klären, welche der Datenquellen von den zu analysierenden Daten zur Extraktion geeignet sind. Hierfür stehen meist folgende Möglichkeiten im Fokus: Bei der ersten Möglichkeit werden die Daten direkt über ein Anwendungsprogramm aus den operativen Beständen kopiert und extrahiert. Oftmals weisen Unternehmen eine dafür benötigte Copy-Management- Struktur nicht vor, was eine zusätzliche Investition bedeuten würde. Bei der zweiten Möglichkeit werden die benötigten Daten direkt aus dem Data-Warehouse selektiert. Die Daten, welche noch nicht im Data Warehouse vorhanden sind, werden aus den operativen Systemen heraus ergänzt.21
2.2.3 Data Preparation
Bei dieser Phase werden die Daten zur Auswertung vorbereitet, damit sie weiter von Data Mining Methoden oder Verfahren bearbeitet werden können. Es können sich womöglich neue Fragestellungen gebildet werden, woraus wiederum die Notwendigkeit von Datenergänzungen entsteht. Die größte Herausforderung ist die Koordination der Daten aus den operativen Systemen und dem Data Warehouse aufgrund ihren oft unterschiedlichen Datenmodellierungen. Die Lösung des Komptabilitätsproblems und der Inkonsistenzen sind wesentliche Bestandteile der Datenvorbereitung. Durch die Datenvorbereitung werden die Datensätze meist kleiner, da fehlerhafte Daten sowie irrelevante Daten aussortiert werden.22
2.2.4 Modelling
In der Datentransformationsphase werden die einzelnen Datenfelder, mit dem Zweck codiert, dass die Data Mining Tools Interpretationen anstellen können. Der Aufwand ist ganz allein von den ausgewählten Anwendungsprogrammen abhängig. In dieser Phase findet das eigentliche Data Mining statt, d.h. es werden Daten mithilfe von verschiedenen Methoden und Verfahren nach Regelmäßigkeiten, Strukturen, Mustern, Abweichungen und Beziehungen untersucht.23
2.2.5 Evaluation
Auf Basis des Datensatzes kann, gemeinsam mit dem Fachbereich, eine Analyse bzw. eine erste Untersuchung erfolgen. Hier wird das Ziel verfolgt, dass ein Ergebnis erreicht wird. Sollte daraus ein unzureichendes Ergebnis resultieren, muss ggf. eine Korrektur beim Business Understanding oder eine andere Spezialisierung erfolgen.24
2.2.6 Deployment
Bei einem zufriedenstellenden Ergebnis werden in Folge konkrete Maßnahmen abgeleitet bzw. in einem Abschlussbericht aufgezeigt. Diese Phase umfasst die Interpretation und Bewertung der Ergebnisse. Weiterhin können die gewählten Methoden eingeordnet und nach ihrer Effizienz und Effektivität beurteilt werden, woraus für die weiteren Data Mining Prozesse Erkenntnisse resultieren.25
2.3 Data Mining Methoden
Data Mining Methoden kennzeichnen sich meist durch eine explorative und datengetriebene Analyseart. Hier stehen die Verallgemeinerung und die Beschreibung von Mustern einer Datengesamtheit im Vordergrund. Hingegen bei modellgetriebenen Datenanalysen werden Hypothesen formuliert, welche von der Wirklichkeit abgeleitet werden. Die formulierten Hypothesen werden anschl. durch Stichproben überprüft.26 Effiziente Methoden im Data Mining kennzeichnen sich durch die autonome Identifizierung von aussagekräftigen Mustern aus großen Datenmengen, die für den Anwender interessantes Wissen bedeuten.27 In dieser Arbeit werden drei Methoden näher betrachtet und im dritten Teil angewendet.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Methodenübersicht Data Mining28
2.3.1 Segmentierung: Clustering
Bei der Segmentierung werden Objekte und Merkmale in Gruppen zusammengefasst, ohne dass sie vorher bekannt sind. Die Benutzer ordnen anschließend die Gruppen nach ihren Eigenschaften und legen ggf. neue Bezeichnungen dafür fest. So werden bei der Segmentierung Datenmengen in verschiedene Cluster zusammengefasst. Sollte der Datensatz bspw. kein „Label" vorweisen, also über keine Klassifizierung verfügen, kann trotzdem Clustering betrieben werden. Am Beispiel von Banken und deren Kreditvergaben, könnte z.B. in Gruppen, wie „keine Kreditvergabe" (1. Gruppe), „Kredit überprüfen" (2. Gruppe) und „Kredit vergeben" (3. Gruppe), eingeteilt werden.
Das Clusterverfahren ist ein statistisches Verfahren. Häufig wird zunächst jedes zu gruppierende Objekt als ein Anfangscluster oder alle Objekte als ein Cluster angesehen. Die Abstände unter den Clustern sollen in beiden Fällen möglichst gering sein und am Ende werden den einzelnen Cluster ihre Bedeutung zugeordnet.28 29 Die Datensätze werden in interessante und inhaltlich ähnliche Gruppen selektiert und entsprechend ihren Merkmalsausprägungen im Kollektiv neu definiert. Ein aus der Praxis bekanntes Beispiel stellt die Kundensegmentierung nach soziodemografischen Merkmalen und deren Kaufverhalten dar, wodurch z.B. die Gruppenbezeichnungen, wie Generation Y, Generation Z etc., resultieren.30
[...]
1 Vgl. Podcampus (2016)
2 Vgl. Volk et al. (2020), S. 1037
3 Vgl. Hude (2020), S. 1
4 Vgl. Klass (2019)
5 Vgl. Lusti (1999), S. 250
6 Vgl. Adriaans/Zantinge (1997), S. 5
7 Vgl. Berry/Linoff (1997), S. 5
8 Vgl. Lusti (1999), S. 250
9 Vgl. Janetzko/Steinhöfel (1997), S. 294
10 Vgl. Fayyad (1996)
11 Vgl. Lusti (1999), S. 252
12 Vgl. Alpar/Niedereichholz (2000), S. 3
13 Vgl. Aksu/Wittemann (2000), S. 217
14 Vgl. Klass (2019)
15 Vgl. Otte/Wippermann (2020)
16 Vgl. Alpar/Niedereichholz (2000), S. 4
17 Vgl. Klass (2019)
18 Vgl. Otte/Wippermann (2020)
19 Vgl. Repetico (2021)
20 Vgl. Alpar/Niedereichholz (2000), S. 219
21 Vgl. Alpar/Niedereichholz (2000), S. 219
22 Vgl. Alpar/Niedereichholz (2000), S. 220
23 Vgl. Alpar/Niedereichholz (2000), S. 220
24 Vgl. Alpar, Niedereichholz (2000), S. 220
25 Vgl. Alpar, Niedereichholz (2000), S. 221
26 Vgl. Lusti (1999), S. 253
27 Vgl. Hagedorn et al. (1997), S. 601
28 Vgl. Eigene Darstellung
29 Vgl. Alpar/Niedereichholz (2000), S. 11
30 Vgl. Hippner/Wilde (2017), S.148