In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.

Leseprobe

Inhaltsverzeichnis

1. Einführung

2. Grundlagen Information Retrieval

3. Crawling

3.1 Das Web

3.2 Reguläre Ausdrücke

4. Indexing

5. Tools für Webretrieval

Zielsetzung und Themen

Die vorliegende Arbeit gibt einen strukturierten Überblick über die Funktionsweise moderner Web-Retrieval-Systeme, indem sie die grundlegenden Prozesse des Crawlings und der Indizierung beleuchtet sowie relevante Softwarewerkzeuge vorstellt.

Grundlagen von Information-Retrieval-Modellen
Prozesse und Herausforderungen beim Webcrawling
Methodik der Datenindizierung
Bedeutung und Struktur des Deep Web
Anwendung der Tools Lucene und Nutch

Auszug aus dem Buch

Crawling

Ein Bestandteil ist das „Crawling“. Um diesen Teil besser zuverstehen ist es notwendig sich vorher einige Grundlagen anzuschauen: Das Web. Um die Datenmenge des Internets durchsuchbar zu machen wird das Internet als gerichteter, unverbundener Graph abstrahiert. Hierbei stellen die HTML Dokumente, also die Seiten an sich die Knoten des Graphen da, und die Verweise oder Hyperlinks auf andere Seiten sind die verbindenden Kanten. Der eben genannte Webcrawler ist in diesem Modell nichts weiter als ein Programm, welches einen Algorithmus zur Graphtraversierung abarbeitet.

Reguläre Ausdrücke. Ein regulärer Ausdruck ist eine Zeichenkette, welche eine Menge von Zeichenketten, mit Hilfe Syntaktischer Regeln beschreibt. Reguläre Ausdrücke werden beim Webcrawling genutzt um die Hyperlinks und Daten aus den HTML Code zu extrahieren. Im Anhang finden sich einige der einfacheren Regeln zum Aufbau regulärer Ausdrücke.

Zusammenfassung der Kapitel

Einführung: Die Einleitung skizziert den Zweck des Web Retrievals zur Sichtung und Analyse großer Datenmengen im Internet.

Grundlagen Information Retrieval: Dieses Kapitel erläutert die verschiedenen IR-Modelle wie das boolesche Modell und das Vektorraummodell zur Filterung und Sortierung von Dokumenten.

Crawling: Der Abschnitt beschreibt den technischen Prozess der Graphtraversierung durch Webcrawler sowie die Relevanz von regulären Ausdrücken und die Problematik des Deep Webs.

Indexing: Hier werden die vier Phasen der Indexerstellung beschrieben, die von der Textextraktion bis zur Nutzung invertierter Listen für eine effiziente Suche reichen.

Tools für Webretrieval: Dieses Kapitel stellt die Softwarewerkzeuge Lucene und Nutch vor und beschreibt deren Funktionalitäten für den Aufbau von Suchmaschinen.

Schlüsselwörter

Web Retrieval, Information Retrieval, Webcrawler, Crawling, Indexing, boolesches Modell, Vektorraummodell, Deep Web, Invertierte Liste, Lucene, Nutch, Reguläre Ausdrücke, Graphtraversierung, Suchmaschine, Datenindizierung

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die technischen Grundlagen, die hinter modernen Suchmaschinen stehen, insbesondere die Methoden zur Erfassung und Organisation von Web-Inhalten.

Was sind die zentralen Themenfelder der Publikation?

Die Schwerpunkte liegen auf den IR-Modellen, der Funktionsweise von Crawlern, den Phasen der Indizierung sowie den Open-Source-Tools Lucene und Nutch.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, einen verständlichen Überblick über die Teilschritte eines Web-Retrieval-Systems zu geben, von der Datenbeschaffung bis zur Bereitstellung für Suchanfragen.

Welche wissenschaftliche Methode wird primär verwendet?

Die Arbeit nutzt eine deskriptive Methodik, um die bestehenden theoretischen Konzepte des Information Retrievals und der Web-Technologien zusammenzufassen und einzuordnen.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretischen Grundlagen des Retrievals, die technischen Aspekte des Crawlings (inkl. Deep Web), das Indexing und die Vorstellung praktischer Software-Lösungen.

Welche Schlüsselwörter charakterisieren die Arbeit am besten?

Zu den prägenden Begriffen gehören Web-Retrieval, Webcrawler, Indizierung, Vektorraummodell und die Open-Source-Frameworks Lucene und Nutch.

Warum ist das Deep Web für Webcrawler eine besondere Herausforderung?

Da Daten im Deep Web nicht durch einfache HTML-Strukturen repräsentiert werden, sondern oft hinter Webformularen oder in Datenbanken liegen, sind sie für herkömmliche Crawler schwer zugänglich.

Was unterscheidet das boolesche Modell vom Vektorraummodell?

Während das boolesche Modell auf exakten Treffern („exact match“) basiert, erlaubt das Vektorraummodell durch die mathematische Gewichtung von Termen eine Sortierung der Ergebnisse nach Relevanz.

Warum ist die „robots.txt“ wichtig für das Crawling?

Sie dient als Kontrollmechanismus, mit dem Betreiber festlegen können, welche Bereiche ihrer Website für Crawler zugänglich sind und welche explizit gesperrt werden sollen.

Ende der Leseprobe aus 7 Seiten - nach oben

Details

Titel: Web Retrieval
Untertitel: Web Crawling & Indexing mit Lucene
Hochschule: Otto-von-Guericke-Universität Magdeburg (Institut für Technische und Betriebliche Informationssysteme (ITI))
Veranstaltung: Data & Knowledge Engineering
Autoren: Florian Uhde (Autor:in), Marco Hinz (Autor:in)
Erscheinungsjahr: 2010
Seiten: 7
Katalognummer: V178610
ISBN (eBook): 9783656008095
ISBN (Buch): 9783656927471
Sprache: Deutsch
Schlagworte: DKE Web Retrieval Crawler
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Florian Uhde (Autor:in), Marco Hinz (Autor:in), 2010, Web Retrieval, München, GRIN Verlag, https://www.hausarbeiten.de/document/178610

Web Retrieval

Web Crawling & Indexing mit Lucene