Hausarbeiten logo
Shop
Shop
Tutorials
En De
Shop
Tutorials
  • How to find your topic
  • How to research effectively
  • How to structure an academic paper
  • How to cite correctly
  • How to format in Word
Trends
FAQ
Zur Shop-Startseite › Informatik - Internet, neue Technologien

Web Retrieval

Web Crawling & Indexing mit Lucene

Titel: Web Retrieval

Seminararbeit , 2010 , 7 Seiten

Autor:in: Florian Uhde (Autor:in), Marco Hinz (Autor:in)

Informatik - Internet, neue Technologien

Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.

Leseprobe


Inhaltsverzeichnis

  • Einführung
  • Grundlagen Information Retrieval
    • Mengentheoretische Modelle
    • Algebraische Modelle
    • Probabilistische Modelle
    • Hybridmodelle
  • Web Information Retrieval
    • Crawling
      • Das Web
      • Reguläre Ausdrücke
    • Indexing
  • Tools für Webretrieval
  • [Anhang]
  • Quellenverzeichnis
  • Fazit

Zielsetzung und Themenschwerpunkte

Diese Ausarbeitung bietet einen einführenden Überblick in das Web Retrieval, eine Technik, die zur Suche und Analyse von Datenbeständen im Internet eingesetzt wird. Die Arbeit erläutert die Grundlagen des Information Retrieval und stellt verschiedene Modelle zur Relevanzbewertung von Dokumenten vor. Besonderes Augenmerk liegt auf dem Webcrawling, einem Prozess zur automatischen Erfassung von Webinhalten, sowie auf der Indexierung, die eine effiziente Suche in großen Datenmengen ermöglicht.

  • Grundlagen des Information Retrieval
  • Verschiedene Modelle zur Relevanzbewertung von Dokumenten
  • Der Prozess des Webcrawling
  • Die Indexierung von Webinhalten
  • Tools für Webretrieval

Zusammenfassung der Kapitel

Die Einleitung stellt den Leser in das Thema Web Retrieval ein und erläutert dessen Bedeutung für die Suche und Analyse von Daten im Internet.

Der Abschnitt "Grundlagen Information Retrieval" beleuchtet die verschiedenen Modelle des Information Retrieval, die zur Extraktion relevanter Informationen aus Dokumenten dienen. Hier werden verschiedene Ansätze wie Mengentheoretische Modelle, Algebraische Modelle, Probabilistische Modelle und Hybridmodelle vorgestellt.

Der Abschnitt "Web Information Retrieval" befasst sich mit dem Prozess des Webcrawling, der die Grundlage für die Suche im Internet bildet. Hier werden die wichtigsten Bestandteile eines Webcrawlers erläutert, wie z.B. die Seed, die Frontier, der Downloader, das Repository und der Parser. Der Abschnitt beleuchtet auch die Herausforderungen, die mit dem Crawling des Deep Web verbunden sind, sowie die Probleme, die durch Bad Server und Bad Crawling entstehen können.

Der Abschnitt "Indexing" erklärt, wie ein Index für Webinhalte erstellt wird, um eine effiziente Suche in großen Datenmengen zu ermöglichen. Die vier Phasen der Indexierung, die Text-Extraktion, die Tokenisierung, die Normalisierung und die Erstellung der Indexliste, werden detailliert beschrieben.

Im Abschnitt "Tools für Webretrieval" werden zwei wichtige Tools für das Web Retrieval vorgestellt: Lucene und Nutch. Lucene ist eine Bibliothek, die Funktionen zur Erstellung von Suchmaschinen bietet, während Nutch eine Open-Source-Suchmaschine ist, die auf Lucene basiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Web Retrieval, Information Retrieval, IR-Modelle, Webcrawling, Indexierung, Lucene, Nutch, Deep Web, Bad Server, Bad Crawling, reguläre Ausdrücke, Tokenisierung, Normalisierung, Lemmatisierung, Stemming, invertierte Liste.

Ende der Leseprobe aus 7 Seiten  - nach oben

Details

Titel
Web Retrieval
Untertitel
Web Crawling & Indexing mit Lucene
Hochschule
Otto-von-Guericke-Universität Magdeburg  (Institut für Technische und Betriebliche Informationssysteme (ITI))
Veranstaltung
Data & Knowledge Engineering
Autoren
Florian Uhde (Autor:in), Marco Hinz (Autor:in)
Erscheinungsjahr
2010
Seiten
7
Katalognummer
V178610
ISBN (eBook)
9783656008095
ISBN (Buch)
9783656927471
Sprache
Deutsch
Schlagworte
DKE Web Retrieval Crawler
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Florian Uhde (Autor:in), Marco Hinz (Autor:in), 2010, Web Retrieval, München, GRIN Verlag, https://www.hausarbeiten.de/document/178610
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  7  Seiten
Hausarbeiten logo
  • Facebook
  • Instagram
  • TikTok
  • Shop
  • Tutorials
  • FAQ
  • Zahlung & Versand
  • Über uns
  • Contact
  • Datenschutz
  • AGB
  • Impressum