In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.
Inhaltsverzeichnis
- Einführung
- Grundlagen Information Retrieval
- Mengentheoretische Modelle
- Algebraische Modelle
- Probabilistische Modelle
- Hybridmodelle
- Web Information Retrieval
- Crawling
- Das Web
- Reguläre Ausdrücke
- Indexing
- Crawling
- Tools für Webretrieval
- [Anhang]
- Quellenverzeichnis
- Fazit
Zielsetzung und Themenschwerpunkte
Diese Ausarbeitung bietet einen einführenden Überblick in das Web Retrieval, eine Technik, die zur Suche und Analyse von Datenbeständen im Internet eingesetzt wird. Die Arbeit erläutert die Grundlagen des Information Retrieval und stellt verschiedene Modelle zur Relevanzbewertung von Dokumenten vor. Besonderes Augenmerk liegt auf dem Webcrawling, einem Prozess zur automatischen Erfassung von Webinhalten, sowie auf der Indexierung, die eine effiziente Suche in großen Datenmengen ermöglicht.
- Grundlagen des Information Retrieval
- Verschiedene Modelle zur Relevanzbewertung von Dokumenten
- Der Prozess des Webcrawling
- Die Indexierung von Webinhalten
- Tools für Webretrieval
Zusammenfassung der Kapitel
Die Einleitung stellt den Leser in das Thema Web Retrieval ein und erläutert dessen Bedeutung für die Suche und Analyse von Daten im Internet.
Der Abschnitt "Grundlagen Information Retrieval" beleuchtet die verschiedenen Modelle des Information Retrieval, die zur Extraktion relevanter Informationen aus Dokumenten dienen. Hier werden verschiedene Ansätze wie Mengentheoretische Modelle, Algebraische Modelle, Probabilistische Modelle und Hybridmodelle vorgestellt.
Der Abschnitt "Web Information Retrieval" befasst sich mit dem Prozess des Webcrawling, der die Grundlage für die Suche im Internet bildet. Hier werden die wichtigsten Bestandteile eines Webcrawlers erläutert, wie z.B. die Seed, die Frontier, der Downloader, das Repository und der Parser. Der Abschnitt beleuchtet auch die Herausforderungen, die mit dem Crawling des Deep Web verbunden sind, sowie die Probleme, die durch Bad Server und Bad Crawling entstehen können.
Der Abschnitt "Indexing" erklärt, wie ein Index für Webinhalte erstellt wird, um eine effiziente Suche in großen Datenmengen zu ermöglichen. Die vier Phasen der Indexierung, die Text-Extraktion, die Tokenisierung, die Normalisierung und die Erstellung der Indexliste, werden detailliert beschrieben.
Im Abschnitt "Tools für Webretrieval" werden zwei wichtige Tools für das Web Retrieval vorgestellt: Lucene und Nutch. Lucene ist eine Bibliothek, die Funktionen zur Erstellung von Suchmaschinen bietet, während Nutch eine Open-Source-Suchmaschine ist, die auf Lucene basiert.
Schlüsselwörter
Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Web Retrieval, Information Retrieval, IR-Modelle, Webcrawling, Indexierung, Lucene, Nutch, Deep Web, Bad Server, Bad Crawling, reguläre Ausdrücke, Tokenisierung, Normalisierung, Lemmatisierung, Stemming, invertierte Liste.
- Arbeit zitieren
- Florian Uhde (Autor:in), Marco Hinz (Autor:in), 2010, Web Retrieval, München, GRIN Verlag, https://www.hausarbeiten.de/document/178610