– II –
Inhaltsverzeichnis NA
Abkürzungsverzeichnis NA
Abbildungsverzeichnis NA
Tabellenverzeichnis NA
Symbolverzeichnis NA
1 Einführung 1
1.1 Problem 1
1.2 Ziel und Aufbau 2
2 Neuronale Netze 4
2.1 Hintergrund Eine kurze Geschichte der Neuroinformatik 4
2.2 Betriebswirtschaftliche Anwendungen Neuronaler Netze 7
2.3 Grundlagen 10
2.4 Backpropagation Netze 12
2.5 Eigenschaften 15
2.6 Einordnung 15
3 Cluster und Vorhersage als Bestandteile von Data Mining 17
3.1 Clusteranalyse 17
3.1.1 Einführung 17
3.1.2 Methodischer Hintergrund 18
3.1.2.1 Means Verfahren 18
3.1.2.2 Kohonen Netze SOM Self Organizing Feature Maps 22
3.2 Vorhersage 24
3.2.1 Einführung 24
3.2.2 Methodischer Hintergrund 24
3.2.2.1 Box Jenkins Technik 24
3.2.2.2 Backpropagation Netze 31
3.3 Data Mining 36
3.3.1 Begriffsbestimmung 36
3.3.2 Konzeption des Data Mining 36
3.3.3 Phasenmodell des Data Mining Prozesses 38
3.3.3.1 Problemdefinition 38
3.3.3.2 Datenaufbereitung 39
3.3.3.3 Data Mining Analyse 41
3.3.3.4 Interpretation der Ergebnisse 42
4 Einsatz von Neuronalen Netzen in Software Tools 44
4.1 Ausgangssituation 44
4.2 Eingesetzte Software 45
4.2.1 IBM Intelligent Miner 45
4.2.2 KnowledgeSTUDIO 46
4.2.3 NeuNet Pro 47
4.2.4 SPSS 48
4.2.5 SPSS Clementine 49
– III –
4.3 Vorgehensweise 50
4.3.1 Problemdefinition 50
4.3.2 Datenaufbereitung 51
4.3.3 Analyse Clusteranalyse 54
4.3.3.1 Trainieren des Kohonen Netzes 54
4.3.3.2 Testen des KNN 55
4.3.3.3 Clustern der Versicherungsdaten 55
4.3.3.4 Vergleich mit dem Means Verfahren 56
4.3.3.5 Zusammenfassung 56
4.3.4 Analyse Prognose 58
4.3.4.1 Trainieren des Netzes 58
4.3.4.2 Testen des KNN 59
4.3.4.3 Prognose der Versicherungsdaten 60
4.3.4.4 Vergleich mit der Box Jenkins Technik 63
4.3.4.5 Zusammenfassung 66
5 Resümee und Ausblick 68
Literaturverzeichnis 71
Anhang 78
– IV –
Abkürzungsverzeichnis
AE absoluter Fehler (Absolute Error)
AKF theoretische Autokorellationsfunktion
ANSI-C American National Standard Institute – C
APE absoluter prozentualer Fehler (Absolute Percentage Error)
AR[p] Autoregressiver Prozess der Ordnung p
ARMA [p,q] Autoregressiver Moving Average Prozess mit den Ordnungen p
und q
ARIMA [p,d,q] Integrierter Autoregressiver Moving Average Prozess
B, B j
Backshift Operator
COV(Y t ,Y t+k ) Autokovarianz
e t Prognosefehler
E(Y t ) Erwartungswert der Zufallsvariablen Y
EAKF empirische Autokorrelationsfunktion
ESAKF empirische Stichprobenautokorrelationsfunktion
HTML Hyper Text Markup Language
KDD Knowledge Discovery in Databases
KI Künstliche Intelligenz
KNN Künstlich Neuronale Netze
MAD Mittlere absolute Abweichung (Mean Absolute Deviation)
MAPE Mittlerer absoluter prozentualer Fehler (Mean Absolute Percenta-
ge Error)
MA [q] Moving Average Prozess der Ordnung q
MLP Multilayer Perceptron
MPE Mittlerer prozentualer Fehler (Mean Percentage Error)
MSE Mittlerer quadratischer Fehler (Mean Square Error)
PAKF Partielle Autokorrelationsfunktion
PSAKF partielle Stichprobenautokorrelationsfunktion
SAKF Stichprobenautokorrelationsfunktion
SE Standardfehler (Standard Error)
SNNS Stuttgart Neural Network Simulator
SOM Self-Organizing Feature Maps
VAR (Y t ) Varianz der Zufallsvariablen Y
VR Variationskoeffizient
WWW World Wide Web
XGUI X-Window bases Graphical User Interface
XOR Exklusives Oder
– V –
Abb. Aufbau der Arbeit 3
Abb. Feedforward Multilayer Perceptron mit Schichten 12
Abb. Kohonen self organizing feature maps 23
Abb. Ablaufdiagramm für die Modellbildung mit ARIMA 29
Abb. Der iterative neuronale Prognosemodellbildungsprozess 31
Abb. Phasenmodell des Data Mining Prozesses 38
Abb. IBM Intelligent Miner Mining Base 45
Abb. KnowledgeSTUDIO Clusteranalyse Means 46
Abb. NeuNet Pro Scatter Graph 47
Abb. SPPS SPSS Dateneditor Viewer 48
Abb. SPSS Clementine Modellbildung 49
Abb. Phasenmodell der praktischen Analyse 50
Abb. Gitter Kohonen Netz 55
Abb. MAPE und Vergleich 62
Abb. Training vs Test Gütevergleich 63
Abb. Stationaritätsüberprüfung der Trainingsdaten Trend 64
Abb. Stationaritätsüberprüfung der Testdaten Trend 64
Abb. Tatsächlicher Beitrag und approximierter Beitrag durch SPSS NA
Clementine, NeuNet Pro und IBM Intelligent Miner NA
(Ausschnitt) 66
Abb. Tatsächlicher Beitrag und approximierter Beitrag durch SPSS NA
Clementine Testdaten Ausschnitt 66
– VI –
Tab. Ergebnis der Faktorenanalyse 53
Tab. Prognoseerstellung mit Neuronalen Netzen Vergleich der Fehlergüte 61
Tab. Prognoseerstellung mit ARIMA Fehlergüte der Ergebnisse 65
– VII –
d 2 Quadratische euklidische Distanz zwischen dem Objekt g und g,k dem Clusterzentrum
E Fehlertoleranz tolerant ETA 2 Streuung, die durch eine Clusterlösung erklärt wird F MSE-Fehlermaß h rs Nachbarschaftsfunktion L i i-te Schicht des Neuronalen Netzes N Anzahl der verborgenen Neuronen hidden N Anzahl der Neuronen der Ausgabeschicht output N Anzahl der Variablen der Trainingsdatensätze pts N Anzahl der Trainingsdatensätze train n kj Zahl der Objekte des Clusters k mit gültigen Angaben in der Va- riablen j net
j Netzeingabe des Neurons j o Netzausgabe o
PRE 2
Prozentuelle Verbesserung gegenüber einer vorausgehenden Clu- K sterlösung q Ordnung des MA-Prozesses ρ (Y t ,Y t-k )= ρ
(k) Korrelationskoeffizient mit vorgegebenen Lag k r Korrelationskoeffizient SQ in (K) Streuungsquadratsumme im Cluster K SQ out (K) Streuungsquadratsumme außerhalb des Clusters K Θ j Schwellenwert des Neurons j U t White-Noise-Prozess w
ij Gewicht zwischen dem Neuron i und dem Neuron j Netzeingabe x Clusterzentrum des k-ten Clusters und j-ten Variablen kj
– VIII –
x Merkmalsausprägung der j-ten Variable des g-ten Objektes
gj
x *
Präsentant der Netzeingabe
Y t Zufallsvariable
y ˆ Prognosewert
t
y Beobachtungswert
y Mittelwert der Beobachtungswerte
– 1 –
1 Einführung
1.1 Problem
Das schnelle Wachstum gespeicherter Datenmengen in der Informationstechnik führte in den vergangenen Jahren zu einem steigenden Interesse an Methoden, die automatisch nützliches Wissen aus großen Datenbeständen filtern. 1 Die großen Datenbestände resul- tieren aus der ständig zunehmenden Größe von Datenbanken, dem unablässig wachsen- den Informationsfluss speziell in produktiven oder Handelsanwendungen sowie der immer komplexer und schneller werdenden operativen Prozesse in Unternehmen. 2
Mit dem Ziel, solche Methoden zu entwickeln, hat sich inzwischen unter Synonymen wie Data Mining, Knowledge Discovery in Databases (KDD) oder Datenmustererken- nung eine neue Forschungsrichtung etabliert 3 , die mehrere bislang isoliert arbeitende Einzeldisziplinen vereinigt. Zu nennen sind die Disziplinen Statistik, Datenbank- und Expertensystemforschung, automatischer Wissenserwerb, Maschinelles Lernen oder Fuzzy-Datenanalyse.
Die zunehmende Bedeutung des Forschungsgebiets macht sich sowohl durch die stei- gende Zahl von speziellen Workshops 4 zu diesem Thema, als auch durch die wachsende allgemeine Beachtung bemerkbar. Die folgende Entwicklung dokumentiert diesen Trend: 1989 ermittelten namhafte Wissenschaftler aus dem Datenbankbereich ein Ran- king von zukünftig besonders wichtigen Forschungsthemen. Während das Data Mining dort noch nicht gelistet ist, wird es vier Jahre später in einem sehr ähnlichen Rahmen gleichberechtigt mit anderen Themen auf Platz zwei geführt. 5
Die fortschreitende Entwicklung besteht auch bei der betrieblichen Datenhaltung. Schon mittlere Betriebe verbuchen monatlich mehrere hunderttausend Datensätze, die bei ent- sprechender Auswertung wichtige Informationen für Controllingzwecke liefern können. Die Auswertung ist aber das Problem : „There are too many facts and too little informa- tion“ 6
, umschreibt LINDSAY die Informationssituation der meisten Unternehmen. 1 Vgl. Chen, M.-S., Han, J., Yu, P. S. (1996), S. 868 f.; Bigus, J. P. (1996), S. 4 f. 2 Vgl. Bigus, J. P. (1996), S. 5 f.
3 Gebräuchlich sind auch : Knowledge extraction, Database exploration, Data pattern processing, Information harvesting oder Database mining. Vgl. Agrawal, R., Imielinski, T., Swami, A. (1993), S. 207 ff. in: Buneman, P., Jajodia, S. (1993), S. 207 ff.; Wang et al. (1994), S. 115 ff. 4 Vgl. Piatetsky-Shapiro, G. (1991), S. 74 ff.; Piatetsky-Shapiro, G. (1993); Piatetsky-Shapiro, G., Frawley, W. J. (1991), S. 1 ff.; Piatetsky-Shapiro, G. et al. (1994); Fayyad, U. M., Uthurusamy, R. (1994), S. 441 ff.
5 Vgl. Stonebraker, M. (1993), S. 701 ff.
6 Lindsay, B. (1994), S. 45 ff.
– 2 –
1.2 Ziel und Aufbau
Die Literatur zum Data Mining dokumentiert zahlreiche Versuche, aus verschiedenar- tigsten Datenbeständen neue Erkenntnisse zu gewinnen. Es werden unterschiedliche Algorithmen des Data Mining beschrieben. In dieser Arbeit soll die Eignung Neuronaler Netze, oft auch als Künstliche Neuronale Netze bezeichnet, als Mining-Algorithmen für die Mining-Funktionen Clustern und Vorhersage untersucht werden. Dabei begrenzt sich die Sichtweise auf Backpropagation 7 - und Kohonen-Netze 8 , da diese Neuronalen Netze für Clustern und Vorhersagen prädestiniert sind. 9
Die Arbeit hat einen zweigeteilten Aufbau (vgl. Abbildung 1). Der erste Teil beinhaltet die theoretischen Grundlagen und umfasst Abschnitt eins bis drei. Im ersten Teil von Kapitel zwei wird die Entstehungsgeschichte der Neuroinformatik dargestellt. An dieser Stelle erhält der Leser einen kurzen chronologischen Überblick der Neuroinformatik. Daran anschließend werden betriebswirtschaftliche Anwendungen Neuronaler Netze diskutiert. Es folgen Grundlagen von Neuronalen Netzen. Nach einer ausführlichen Be- schreibung von Backpropagation-Netzen, folgt eine kompakte Darstellung der Vor- und Nachteile Neuronaler Netze. Zum Abschluss von Kapitel zwei erhält der Leser eine Einordnung der Neuronalen Netze. Kapitel drei erläutert die Clusteranalyse und die Vorhersage, die weiteren auch als Prognose benannt wird. Im dritten Abschnitt des Ka- pitels wird die Problemstellung des Data Minings analysiert, der Begriff des Data Mi- ning definiert und dessen Prozess aufgezeigt.
Der zweite Teil der Arbeit liefert empirische Untersuchungen zur Eignung von Neuro- nalen Netze für Cluster- und Vorhersagen-Aufgaben. Im Mittelpunkt stehen Kundenda- ten einer Versicherung. Diese Daten sollen zunächst bezüglich einer Versicherungsspar- te mit Hilfe von Kohonen-Netzen und K-Means-Verfahren geclustert werden. Ein Ver- gleich der beiden Verfahren folgt. Im weiteren werden Vorhersagen bezüglich einer Versicherungssparte und deren Beitragshöhen durchgeführt. Die erzielten Prognosen werden durch Backpropagation-Netze und ARIMA-Prozesse 10
simuliert. Dabei werden die im ersten Teil der Arbeit erläuterten Modelle mit Hilfe von unterschiedlichen Soft- 7 Backpropagation Netze besitzen eine feedforward-Architektur. Sie zeichnen sich durch überwachtes Lernen aus. Das Lernen erfolgt mit Hilfe des Backpropagation-Lernalgorithmus. Vgl. Bigus J. P. (1996), S. 69.
8 Kohonen-Netze sind feedforward-Netze, die sich durch ein unüberwachtes Lernen von Backpropa- gation Netze unterscheiden. Durch diese Eigenschaften könne sie sich selbst organisieren. Als Re- sultat gibt dieses Netz eine zweidimensionale Karte aus.Vgl. Bigus J. P. (1996), S. 71. 9 Vgl. Bigus, J. P. (1996), S. 77.
10 Gegenstand von ARIMA-Prozesse sind Zeitreihen, die als Realisierung eines stochastischen Prozes- ses aufgefasst werden.
– 3 –
ware-Tools umgesetzt. Ziel dieses Abschnittes ist es, einen Vergleich zwischen statisti-
schen Methoden und Neuronalen Netze aufzustellen.
Abb. 1: Aufbau der Arbeit
– 4 –
2 Neuronale Netze
2.1 Hintergrund - Eine kurze Geschichte der Neuroinformatik
Die Ursprünge der Neuroinformatik sind die Arbeiten von WARREN MCCULLOCH und WALTER PITTS (1943) und von DONALD HEBB (1949). MCCULLOCH und PITTS be- schreiben in ihrem Aufsatz eine mathematisch formalisierte Version eines Neurons, das Schwellenwertneuron: 11 Die Ausgabe des Neurons ist 1, wenn die gewichtete Summe der Eingaben den Schwellenwert des Neurons überschreitet, und 0 andernfalls. MCCULLOCH und PITTS zeigen, dass Netze aus solchen Neuronen beliebige boolesche Funktionen berechnen können. Diesem diskreten Ansatz stehen andere gegenüber, die ein Kontinuum betrachten und auf Differentialgleichungen basieren, um Aussagen über globales Verhalten zu machen; am bekanntesten sind die Arbeiten von Wiener. 12
Auf diesen theoretischen Grundlagen baut die primitive Phase der Neuroinformatik auf, die etwa Mitte der 50er Jahre beginnt. Ausdrücklich als Versuch zur Modellierung des Gehirns wird eine Reihe von Varianten einer Klasse von Maschinen für optische Wahr- nehmung untersucht, die Perceptrons. 13 Ein Perceptron berechnet im einfachsten Fall aus einer festen Menge von lokalen Prädikaten über begrenzte Teilbereiche einer (ge- dachten) Netzhaut ein globales Prädikat über das auf der Netzhaut dargestellte Bild, indem eine gewichtete Summe der einzelnen Prädikate, die die Werte 1 oder 0 besitzen, gegen einen Schwellenwert geprüft wird. Zur Bestimmung der Gewichte wird ein einfa- cher Algorithmus, Perceptron-Lernregel, der auf schon früher gefundenen mathemati- schen Grundlagen aufbaut benutzt 14 , die jedoch unter den Neuroinformatikern erst eini- ge Zeit später bekannt werden. Perceptrons und perceptron-ähnliche Modelle stehen in den folgenden Jahren bei mehreren Gruppen im Mittelpunkt. In dem 1962 von ROSENBLATT 15 veröffentlichten Buch erreicht die Neuroinformatik einen ersten Höhe- punkt. Hierin wird neben einer ausführlichen experimentellen Analyse der Fähigkeiten von Perceptrons auch ein Beweis für die Konvergenz der Perceptron-Lernregel aufge- führt. Dieser Beweis besagt, dass die Lernregel für jedes von einem Perceptron darstell- barem Prädikat auch eine Lösung findet. Rosenblatt ist ein begeisterter Advokat des Perceptron. Nicht zuletzt diese Ausstrahlung führt dazu, dass sich mit dem Erscheinen des Buches PRINCIPLES OF NEURODYNAMICS 16
, zahlreiche Forscher für das Perceptron 11 Vgl. McCulloch, W., Pitts, W. (1943), S. 115-133.
12 Vgl. Wiener, N. (1948).
13 Vgl. Rosenblatt, F. (1957).
14 Vgl. Agmon, S. (1954), S. 382-392 15 Vgl. Rosenblatt, F. (1962).
16 Vgl. Rosenblatt, F. (1962).
– 5 –
begeistern und eine Welle neuer Arbeiten einsetzt, die allerdings kaum Erfolge hervor- bringen. Insbesondere wird keine Lernregel für das mehrstufige Perceptron gefunden. Man weiß aber, dass es im allgemeinen leistungsfähiger als das einstufige Perceptron ist.
Als 1969 MINSKY und PAPERT ihr berühmtes Buch PERCEPTRONS 17 veröffentlichen, kommt es zu einem abrupten Ende der Begeisterung. Sie liefern in diesem Buch die Theorie, dass einstufige Perceptrons manche Probleme nicht lösen können. Die berühm- teste Aussage dieser Theorie lautet, dass ein Perceptron der Ordnung 1 (d. h., dass für jedes lokale Prädikat nur 1 Punkt der Netzhaut ausgewertet wird) die Paritätsfunktion nicht berechnen kann. Die Parität ist das Prädikat, welches angibt, ob die Anzahl der elementaren Punkte auf der Netzhaut, die schwarz sind, gerade ist oder nicht. Die ein- fachste Form dieses Problems ist der Fall von zwei Punkten; die Paritätsfunktion ist in diesem Fall das Exklusiv-Oder (XOR). Allgemeiner lautet die Aussage, dass alle Prob- leme, deren positive und negativen Fälle nicht durch eine Hyperebene (bei n lokalen Prädikaten : im n-dimensionalen Raum) voneinander getrennt werden können, auch stets nicht mit einem Perceptron einer Ordnung kleiner n (also insbesondere: fester Ord- nung) gelöst werden können; Perceptrons können nur die sogenannten linear separier- baren Probleme lösen.
Das Buch von MINSKY und PAPERT wird dahingehend verstanden, dass generell Neuro- nale Netze keine aussichtsreichen Mechanismen für Lernapparate seien. Die genaue Intention und Rolle des Buches ist strittig. Für eine andere Sichtweise steht Hecht- Nielsen 18 , sowie der Epilog der Neuausgabe von PERCEPTRONS 19 . Dies hat zwei Konse- quenzen : Erstens kommt die neuroinformatische Forschung lange Zeit fast zum Erlie- gen und zweitens halten viele Forscher alle grundlegenden Probleme für überwunden, als mit dem Backpropagation-Verfahren später ein Lernalgorithmus gefunden wird, der auch mehrstufige Perceptrons zu trainieren erlaubt und mit dessen Hilfe folglich auch nicht linear trennbare Probleme gelöst werden können.
BRYSON und HO 20 beschreiben 1969 Verfahren zur Lösung von Regelungsproblemen, die das heute unter dem Namen Backpropagation bekannte Lernverfahren als Spezial- fall enthalten. Offenbar wird die Arbeit ignoriert, jedenfalls wird die Erfindung in weite- ren Forschungsarbeiten nicht berücksichtigt. Daher erfindet WERBOS 21
1974 das Backpropagation-Verfahren erneut. Wieder wird dieser Erfindung keine Beachtung ge- 17 Vgl. Minsky, M., Papert, S. (1969).
18 Vgl. Hecht-Nielsen, R. (1990), S. 14 ff.
19 Vgl. Minsky, M., Papert, S. (1988).
20 Vgl. Bryson, A. E., Ho, Y. C. (1969).
21 Vgl. Werbos, P. (1974).
– 6 –
schenkt. Ein drittes Mal wird Backpropagation 1985 von PARKER 22 und in ähnlicher Form von LE CUN 23 erfunden und diesmal endlich wahrgenommen, wenn auch haupt- sächlich indirekt: 1986 schreibt eine Gruppe um DAVID RUMMELHART und JAMES MCCLELLAND das Buch PARALLEL DISTRIBUTED PROCESSING, das unter anderem das Backpropagation – unter Erwähnung von PARKER und LECUN – vorstellt und damit die zweite große Welle der Neuroinformatik einleitet. 24
Mit der Entdeckung des Backpropagation-Algorithmus beginnt die Phase der Nutzbar- machung der Neuroinformatik. Waren fast alle Anwendungen des Perceptron von hauptsächlich akademischem Interesse, so beginnt jetzt eine Phase hektischen Auspro- bierens Neuronaler Netze für so ziemlich jede erdenkliche Anwendung. Zahlreiche Verbesserungen des Backpropagation-Algorithmus, insbesondere zur Beschleunigung des Lernens werden vorgestellt. In ihrer 1988 erschienenen Neuausgabe von PERCEPTRON beklagen MINSKY und PAPERT, dass in all der Begeisterung über die Lös- barkeit nicht linear separierbarer Probleme, die wichtigen Fragen der Skalierbarkeit und Lernkomplexität kaum gestellt bzw. beantwortet werden. 25 Später werden aber große Fortschritte in dieser Richtung erzielt, wenngleich die theoretischen Ergebnisse für praktische Fälle nur selten nützliche Aussagen liefern. 26 Der Höhepunkt der Nutzbarkeit von Neuronalen Netzen ist erreicht. Dagegen hat die industrielle Revolution noch nicht begonnen, steht aber wohl bald bevor. Alle Requisiten sind vorhanden: Erfahrungen mit kleinen Anwendungen, kommerzielles Interesse an umfangreicheren Anwendungen 27 , ernsthafte Ansätze der Theoriebildung und schließlich die nötige Basistechnologie.
Im Gegensatz zur symbolischen künstlichen Intelligenz gibt es in der Neuroinformatik kaum Streit um die Frage, dass die bisher realisierten Modelle keine künstliche Intelli- genz ausweisen. Die Mechanisierung geistiger Arbeiten ist also noch nicht gelungen. Eine Phase der Verklärung ist in der Neuroinformatik nicht zeitlich abzugrenzen. Zwar sind Ansätze entsprechender Vorstellungen vor allem in der Anfangszeit, später eine Zeitlang nach Erfindung der Backpropagation vorhanden, doch ist den meistens Betei- ligten jederzeit klar, dass die Nachbildung menschlichen Gehirns oder größerer Teile davon allein aufgrund der schieren Menge dort realisierter Bauelemente 28
noch für eini- ge Zeit außerhalb der Reichweite verfügbarer technischer Realisierungen bleiben wird. 22 Vgl. Parker, D. B. (1985).
23 Vgl. Le Cun, Y. (1985). S. 599 ff.
24 Vgl. Rummelhart, D., McClelland, J. (1986).
25 Vgl. Minsky, M., Papert, S. (1988), S. 247 ff.
26 Vgl. Anthony, M., (1994); Sontag, E.D. (1994).
27 Vgl. Bigus, J. P. (1996), S. 29.
28 Bei diesen Bauelemente handelt es sich um eine Realisierung von ungefähr 10 11 Neuronen und 10 13 Verbindungen. Vgl. Kinnebrock, W. (1994), S. 13f.
– 7 –
2.2 Betriebswirtschaftliche Anwendungen Neuronaler Netze
In der wissenschaftlichen Literatur werden seit längerer Zeit Leistungspotentiale Neu- ronaler Netze intensiv diskutiert. Betriebswirtschaftliche Anwendungsmöglichkeiten erlangen an dieser Stelle zunehmendes Interesse. Neuronale Netze sind informations- verarbeitende Systeme, die sich am Aufbau und an der Funktionsweise des menschli- chen Gehirns orientieren. 29 Es wird jedoch nicht der Anspruch erhoben, Gehirne nach- zubauen, sondern die natürlichen Vorbilder dienen als Orientierungspunkte. Die beson- deren Fähigkeiten wie Lernfähigkeit, Fehlertoleranz und Mustererkennungsfähigkeit sollen erreicht werden. 30
Im Rahmen der Klassifikation der betriebswirtschaftlichen Anwendungsfelder Neurona- ler Netze werden in der Literatur häufig die betriebswirtschaftlichen Funktionsbereiche herangezogen, wobei die folgende Einteilung als typisch zu bezeichnen ist: 31
• Finanzbereich: z. B. Kreditwürdigkeitsprüfungen, Kursprognosen von Aktien und Devisen sowie Bilanzanalysen
• Marketingbereich: z. B. Absatzprognosen und die Bildung von Marktsegmenten
• Produktionsbereich: z. B. Qualitätskontrolle und Reihenfolgeoptimierung, Prog- nose von Lieferterminen und Produktionskosten
Diese unvollständige Aufzählung zeigt, dass die in den einzelnen Funktionsbereichen existierenden Aufgaben eine starke Ähnlichkeit aufweisen und es folglich zu deutlichen Redundanzen und Interdependenzen kommt. Eine Einteilung erscheint unangebracht, da sich etwa Prognoseprobleme in allen drei angeführten Funktionsbereichen stellen. Eine zweckmäßigere Klassifikation geht davon aus, welche Art von Problemen in den bei- spielhaft genannten Anwendungsfeldern behandelt werden. Dabei lassen sich folgende generelle Probleme nennen: Es existieren Probleme, bei denen der Zusammenhang zwi- schen den gewünschten Merkmalsausprägungen und dem zugehörigen Niveau der un- abhängigen Variablen unbekannt sind. Zudem kommen Probleme, für die keine effiziente Lösungsmethode bekannt ist und die formal nicht mit vertretbarem Aufwand lösbar sind. Bestehen hingegen Probleme, auf die keines der beiden Merkmale zutrifft, dann sind konventionelle Verfahren, wie statistische Methoden, Verfahren der kombina- torischen Optimierung oder auch Heuristiken besser geeignet, weil diese mit deutlich geringerem Aufwand zu einer Lösung führen.
32 29 Vgl. Rehkugler, H., Poddig, T. (1991), S. 368 f.; Zell, A. (1994), S. 71 ff.
30 Vgl. Zell, A. (1998), S. 4 f.
31 Vgl. Adam, D., Hering, T., Welker, M. (1995), S. 591 f.; Harston, C. T. (1990), S. 391 ff. 32 Vgl. Becker, J. (1994), S. 167; Steiner, M., Wittkemper, H.-G. (1993), S. 461.
– 8 –
Diese Differenzierung basiert auf eine in der betriebswirtschaftlichen Entscheidungs- theorie üblichen Klassifikation in wohl- und schlechtstrukturierte Probleme. Ein Prob- lem wird als wohlstrukturiert bezeichnet, wenn der Wirkungszusammenhang zwischen den Handlungsalternativen und deren Folgen bekannt ist, den relevanten Problemmerk- malen eindeutige Werte zugeordnet werden können und eine operationale Zielfunktion sowie ein effizientes Lösungsverfahren zur Ermittlung der optimalen Lösung existieren. Dagegen liegt ein schlechtstrukturiertes Problem immer dann vor, wenn mindestens eines dieser Merkmale nicht erfüllt ist. In Abhängigkeit davon, welches dieser Merkma- le nicht erfüllt ist, lassen sich Probleme mit Wirkungs-, Bewertungs-, Zielsetzungs- oder Lösungsdefekt unterscheiden. 33
Neuronale Netze eignen sich insbesondere zur Bearbeitung von wirkungsdefekten Prob- lemen, bei denen die Ergebnisse der Handlungsalternativen in bestimmten Umweltsitua- tionen nicht vorhersagbar sind, d. h., wenn unbekannte Ursache/Wirkungs-Beziehungen vorliegen. 34 Die oben angeführten Probleme zeigen jedoch, dass Neuronale Netze auch bei lösungsdefekten Problemen grundsätzlich geeignet sind. 35
Es erfolgt bei den bisher im Rahmen lösungsdefekter Probleme überwiegend zur An- wendung kommenden Neuronalen Netzen eine andere Art der Informationsverarbei- tung, als dies bei den Netzen der Fall ist, die bei wirkungsdefekten Problemen zum Ein- satz gelangen. Entsprechend lassen sich die beiden folgenden grundliegend verschiede- nen Ausprägungen Neuronaler Netze unterscheiden: 36
• funktionsoptimierende und
• funktionsbildende Neuronale Netze
Bei funktionsoptimierenden Neuronalen Netzen ist der funktionale Zusammenhang zwi- schen Eingabe und Ausgabe eines Netzes bekannt. Es werden lediglich die Ausgabeda- ten gesucht, die diesen Zusammenhang am besten darstellen können. Hierzu ist es not- wendig, das Problem in einer Energiefunktion abzubilden, deren Minimum mit der op- timalen Lösung des Problems korrespondiert. 37
Demgegenüber wird beim funktionsbildenden Ansatz versucht, einen Zusammenhang zwischen Eingabe- und Ausgabewerten aufzustellen. Dies erfolgt so, dass das trainierte Neuronale Netz schließlich als universelle Funktion interpretierbar ist und die Eingabe- 33 Vgl. Adam, D. (1993), S. 7 ff.
34 Vgl. Becker, J. (1994), S. 162.
35 Vgl. Corsten, H., May, C. (1995), S. 45.
36 Vgl. Corsten, H., May, C. (1995), S. 48 f.
37 Vgl. Ruppel, A., Siedentopf, J. (1992), S. 557.
– 9 –
und Ausgabewerte abzubilden vermag. Ein solcher Vorgang wird auch als Musterer- kennung bezeichnet. 38 Bei lösungsdefekten Problemen wird dieses in ein wirkungsde- fektes Problem transformiert, wobei zwischen einer direkten und einer indirekten Vor- gehensweise zu unterscheiden ist. 39
Die erwähnten Abgrenzungsprobleme zwischen den Anwendungsfeldern und die damit einhergehenden Redundanzen lassen sich vermeiden. Dies geschieht wenn den wir- kungsdefekten Problemen die Prognose- und Klassifikationsaufgaben und den lösungs- defekten Problemen die Optimierungsaufgaben zugeordnet werden. 40
Die Anwendungen Neuronaler Netze für Prognoseaufgaben basieren auf einem vom Netz gebildeten Modell des zu prognostizierenden Systems. Mit diesem Modell soll das Netz in die Lage versetzt werden, aus den Vergangenheitsdaten Zukunftswerte zu gene- rieren. Als typische Prognoseprobleme sind zu nennen:
• Kostenprognosen 41
• Kursprognosen von Wertpapieren und Devisen 42
• Absatzprognosen 43
Bei Klassifikationsaufgaben erfolgt die Zuordnung einer Menge von Objekten zu einer begrenzten Anzahl von Klassen. Während einige Netztypen (z. B. Kohonen-Netze), ähnlich einer Clusteranalyse, selbständig Klassen bilden, erlernen andere Netztypen (z. B. Backpropagation-Netze) auf der Grundlage von Trainingsdaten die Zuordnung zu bereits definierten Klassen. Als typische Klassifikationsprobleme sind zu nennen:
• Marktsegmentierungen 44
• Kreditwürdigkeitsprüfung 45
• Bilanzanalysen 46
Zur Lösung von Optimierungsaufgaben wird für einen funktional beschreibbaren Zu- sammenhang ein Minimal- oder ein Maximalwert gesucht, wobei i.d.R. für das Problem kein effizienter Lösungsweg bekannt ist. Die Aufgabe des Neuronalen Netzes ist es 38 Vgl. Rojas, R. (1993), S. 24.
39 Vgl. Corsten, H., May, C. (1995), S. 51.
40 Vgl. Becker, J., Prischmann, M. (1992), S. 17 ff.; Faißt, J. (1993), S. 217. 41 Vgl. Becker, J. (1994), S. 158 ff..
42 Vgl. Rehkugler, H., Poddig, T. (1991), S. 368 f.
43 Vgl. Hantschel, G., Zimmermann, H.G. (1992), S. 46 ff.
44 Vgl. Hruschka, H., Natter, M. (1993), S. 426 ff.
45 Vgl. Erxleben, K. et al. (1992), S. 1237 f.
46 Vgl. Baetge, J. et al. (1994), S. 337.
– 10 –
dann, die optimale Lösung oder zumindest eine Lösung, die dem Optimum möglichst nahe kommt, zu finden. Klassische Optimierungsaufgaben sind:
• Transportoptimierung (Travelling-Salesman-Problem) 47
• Reihenfolgeplanung 48
2.3 Grundlagen
Neuronale Netze sind informationsverarbeitende Systeme, die aus einer großen Anzahl einfacher Einheiten (Zellen, Units) bestehen. Diese vermitteln untereinander Informati- onen in Form der Aktivierung der Zellen über gewichtete Verbindungen. Zu den Be- standteilen eines Neuronalen Netzes zählen Zellen (Neuronen), Verbindungsnetzwerk und Lernregeln. 49 Neuronen besitzen einen Aktivierungszustand a j und einen Ausgabe- wert o j . Die Ausgabe o j berechnet sich in der Regel durch Anwendung einer nichtlinea- ren Funktion auf die sogenannte Netzeingabe net j , wobei unter Umständen ein Schwel- lenwert Θ j
berücksichtigt wird. Die Netzeingabe ist wiederum in den meisten Fällen die gewichtete Summe der Ausgaben der Vorgängerzellen.
Symbole
net j Netzeingabe Θ
j Schwellenwert des Neurons j o Ausgabe des Neurons i i w Gewicht der Verbindung zwischen Neuron i und Neuron j ij Im Allgemeinen ist die Aktivierungsfunktion f deterministisch, wobei aber auch Aus- nahmen in Form von stochastischer Aktivierungsfunktionen existieren. Die meist imp- lementierten Funktionen für f sind 1 (logistische Aktivierungsfunktion), bzw. f(x) =
f(x) = tanh(x).
50 47 Vgl. Pietsch, W., Teubner, A. (1992), S. 346 ff.
48 Vgl. May, C. (1996), S. 1 ff.; Ruppel, A., Siedentopf, J. (1992), S. 554 ff. 49 Vgl. Zell, A. (1998), S. 6.
50 Vgl. Zell, A. (1998), S. 6.
Arbeit zitieren:
Dr. Thomas Zabel, 2001, Neuronale Netze für Clustern und Vorhersage - Methodenvergleich und Tools, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Die Bedeutung der Kompetenz am Beispiel der Personalentwicklung
Pädagogik - Berufserziehung, Berufsbildung, Weiterbildung
Hausarbeit, 31 Seiten
Zukunftsqualifikationen fuer Mitarbeiter - Selbstmanagement als Schlue...
BWL - Personal und Organisation
Diplomarbeit, 80 Seiten
Vertrauen oder Kontrolle: Die Bedeutung von Vertrauen zur Steuerung vo...
BWL - Personal und Organisation
Studienarbeit, 31 Seiten
Führungsverhalten und Führungsstil - eine kritische Analyse möglicher ...
Pflegemanagement / Sozialmanagement
Hausarbeit, 23 Seiten
Elias' Theorie der Etablierten-Außenseiter-Beziehungen als kritisc...
Pädagogik - Interkulturelle Pädagogik
Referat (Ausarbeitung), 23 Seiten
Einsatz neuronaler Netze zur Mustererkennung
Informatik - Wirtschaftsinformatik
Seminararbeit, 24 Seiten
Soziale Netzwerke und Handlungskompetenz - Inwieweit fördern soziale N...
Pädagogik - Erwachsenenbildung
Magisterarbeit, 67 Seiten
Motivation von Mitarbeitern -Motivationstheorien-
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 16 Seiten
Die Balanced Scorecard als Instrument des strategischen Managements
BWL - Unternehmensführung, Management, Organisation
Hausarbeit, 18 Seiten
Zusammenhänge zwischen Motivation und Arbeitszufriedenheit
Soziologie - Arbeit, Beruf, Ausbildung, Organisation
Hausarbeit, 19 Seiten
Die Methode des Empowerments als Beitrag zur Mitarbeitermotivation
Sozialpädagogik / Sozialarbeit
Diplomarbeit, 49 Seiten
BWL - Unternehmensführung, Management, Organisation
Hauptseminararbeit, 35 Seiten
Führungsverhalten, Führungssti...
Psychologie - Arbeit, Betrieb, Organisation und Wirtschaft
Seminararbeit, 15 Seiten
JEAN-FRANÇOIS LYOTARD - ein Bericht
Philosophie - Philosophie des 20. Jahrhunderts / Gegenwart
Hauptseminararbeit, 13 Seiten
Peter Senges Konzept vom Organisationslernen
Soziologie - Arbeit, Beruf, Ausbildung, Organisation
Hauptseminararbeit, 31 Seiten
Kompetenzanalyse und Kompetenzentwicklung in vernetzten Unternehmen
BWL - Personal und Organisation
Diplomarbeit, 84 Seiten
Organisatorisches Lernen in Non-Profit-Unternehmen
Informationswissenschaften, Informationsmanagement
Diplomarbeit, 109 Seiten
Thomas Zabel's Text Neuronale Netze für Clustern und Vorhersage - Methodenvergleich und Tools ist nun auf dem Buchmarkt erhältlich
Thomas Zabel hat den Text Neuronale Netze für Clustern und Vorhersage - Methodenvergleich und Tools veröffentlicht
Thomas Zabel hat einen neuen Text hochgeladen
0 Kommentare