Einleitung
“The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.”
(W.H. Auden)
Die heutzutage im Internet vorhandene enorme und immer noch rapide anwachsende Datenmenge macht es einem Benutzer, der auf der gezielten Suche nach Informationen ist, nahezu unmöglich, sinnvoll relevante Informationen zu suchen bzw. zu finden. In der Regel wird er entweder keine der gesuchten Informationen erhalten oder aber so
viele, daß ein Rausfiltern der tatsächlich gewünschten Informationen aus den redundanten Informationen einen enormen Zeitaufwand darstellt. Das alleinige Vorhandensein einer Fülle von Informationen/Datenmengen hilft dem Anwender demnach noch nicht, Informationen leichter und/oder schneller zu finden, als dies mit
alt hergebrachten Methoden möglich war. Es ist somit notwendig, Systeme zu entwickeln, die den Anwender sinnvoll bei seiner Informationssuche unterstützen, ohne ihn in einer unkontrollierten Informationsflut ersticken zu lassen.
[...]
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Motivation
- 1.2 Zielsetzung
- 1.3 Gliederung
- 2 Grundlagen
- 2.1 Data mining, Data Warehouse
- 2.1.1 Regeln
- 2.1.2 Cluster
- 2.2 Information Retrieval
- 2.2.1 Standardverfahren
- 2.2.1.5 Probabilistische IR-Verfahren
- 2.3 Software-Agenten
- 2.4 Selbstorganisierende Merkmalskarten
- 2.4.1 WEBSOM
- 2.5 Multidimensionale Skalierung
- 2.5.1 MDS nach dem Verfahren von Kruskal
- 2.5.2 MDS nach dem SMACOF-Verfahren
- 2.1 Data mining, Data Warehouse
- 3 Eigener Ansatz
- 3.1 Szenario
- 3.2 Dokumentbearbeitung
- 3.2.1 Anforderungen an einen Stoppvektor
- 3.2.2 Anforderungen an einen Thesaurus
- 3.2.3 Generierung von Dokumentenvektoren
- 3.3 Dokumentenkartenerstellung
- 4 Simulation
- 4.1 Dokumentbearbeitung
- 4.1.1 Generierung eines Stoppvektors
- 4.1.2 Generierung eines Thesaurus
- 4.1.3 Generierung eines Dokumentenvektors
- 4.2 Dokumentenkartenerstellung
- 4.2.1 Definition eines Ähnlichkeitsmaßes
- 4.2.2 Anordnung der Dokumente nach dem CARD-Algorithmus
- 4.2.3 Anordnung der Dokumente mit MDS-Algorithmen
- 4.2.3.1 Anordnung nach dem Verfahren von Kruskal
- 4.2.3.2 Anordnung nach dem SMACOF-Verfahren
- 4.1 Dokumentbearbeitung
- 5 Softwarestruktur
- 5.1 Implementierung der Dokumentbearbeitung mit ACCESS
- 5.1.1 Generierung des Stoppvektors
- 5.1.2 Generierung eines Thesaurus
- 5.1.3 Erstellung des Dokumentvektors
- 5.2 Implementierung der Dokumentenkartenerstellung mit JAVA
- 5.2.1 Basismethoden
- 5.2.2 Der CARD-Algorithmus
- 5.2.3 Der MDS-Algorithmus nach Kruskal
- 5.2.4 Der MDS-Algorithmus nach der SMACOF-Methode
- 5.1 Implementierung der Dokumentbearbeitung mit ACCESS
Zielsetzung und Themenschwerpunkte
Die Diplomarbeit beschäftigt sich mit der adaptiven Informationssuche im Internet. Die Arbeit verfolgt das Ziel, ein Verfahren zu entwickeln, das es Nutzern ermöglicht, relevante Informationen im Internet effizient zu finden. Dies soll durch die Anwendung von Methoden des Data Mining und des Information Retrieval erreicht werden.
- Adaptive Informationssuche im Internet
- Anwendung von Data Mining und Information Retrieval Methoden
- Entwicklung eines Verfahrens zur effizienten Informationsfindung
- Erstellung von Dokumentenkarten zur Visualisierung der Information
- Implementierung des Verfahrens in einer Software
Zusammenfassung der Kapitel
- Kapitel 1: Einleitung
Die Einleitung führt in das Thema der adaptiven Informationssuche im Internet ein und erläutert die Motivation für die Arbeit. Es werden die Zielsetzung der Arbeit sowie die Gliederung vorgestellt.
- Kapitel 2: Grundlagen
Dieses Kapitel behandelt die Grundlagen des Data Mining, des Data Warehousing und des Information Retrieval. Es werden verschiedene Standardverfahren des Information Retrieval, wie das Boolesche Retrieval, das Fuzzy Retrieval und das Vektorraummodell, vorgestellt. Außerdem werden Software-Agenten und selbstorganisierende Merkmalskarten, sowie multidimensionale Skalierungsverfahren behandelt.
- Kapitel 3: Eigener Ansatz
Das Kapitel beschreibt den eigenen Ansatz zur adaptiven Informationssuche im Internet. Es wird ein Szenario vorgestellt, in dem das Verfahren eingesetzt werden kann. Des Weiteren werden die Anforderungen an den Stoppvektor und den Thesaurus sowie die Generierung von Dokumentenvektoren und die Erstellung von Dokumentenkarten erläutert.
- Kapitel 4: Simulation
In diesem Kapitel wird die Simulation des entwickelten Verfahrens beschrieben. Es werden die einzelnen Schritte der Dokumentbearbeitung, wie die Generierung eines Stoppvektors, eines Thesaurus und eines Dokumentenvektors, dargestellt. Außerdem wird die Erstellung von Dokumentenkarten mit verschiedenen Algorithmen, wie dem CARD-Algorithmus und MDS-Algorithmen, behandelt.
- Kapitel 5: Softwarestruktur
Das Kapitel befasst sich mit der Softwarestruktur des entwickelten Verfahrens. Es werden die Implementierung der Dokumentbearbeitung mit ACCESS und die Implementierung der Dokumentenkartenerstellung mit JAVA beschrieben.
Schlüsselwörter
Adaptive Informationssuche, Data Mining, Information Retrieval, Dokumentenkarten, Stoppvektor, Thesaurus, Dokumentenvektor, CARD-Algorithmus, MDS-Algorithmus, WEBSOM, ACCESS, JAVA.
- Quote paper
- Sabrina Schulze (Author), 2000, Adaptive Informationssuche im Internet, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/160