Hausarbeiten logo
Shop
Shop
Tutorials
En De
Shop
Tutorials
  • How to find your topic
  • How to research effectively
  • How to structure an academic paper
  • How to cite correctly
  • How to format in Word
Trends
FAQ
Go to shop › Computer Science - Internet, New Technologies

Web Retrieval

Web Crawling & Indexing mit Lucene

Title: Web Retrieval

Seminar Paper , 2010 , 7 Pages

Autor:in: Florian Uhde (Author), Marco Hinz (Author)

Computer Science - Internet, New Technologies

Excerpt & Details   Look inside the ebook
Summary Excerpt Details

In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.

Excerpt


Inhaltsverzeichnis

  • Einführung
  • Grundlagen Information Retrieval
    • Mengentheoretische Modelle
    • Algebraische Modelle
    • Probabilistische Modelle
    • Hybridmodelle
  • Web Information Retrieval
    • Crawling
      • Das Web
      • Reguläre Ausdrücke
    • Indexing
  • Tools für Webretrieval
  • [Anhang]
  • Quellenverzeichnis
  • Fazit

Zielsetzung und Themenschwerpunkte

Diese Ausarbeitung bietet einen einführenden Überblick in das Web Retrieval, eine Technik, die zur Suche und Analyse von Datenbeständen im Internet eingesetzt wird. Die Arbeit erläutert die Grundlagen des Information Retrieval und stellt verschiedene Modelle zur Relevanzbewertung von Dokumenten vor. Besonderes Augenmerk liegt auf dem Webcrawling, einem Prozess zur automatischen Erfassung von Webinhalten, sowie auf der Indexierung, die eine effiziente Suche in großen Datenmengen ermöglicht.

  • Grundlagen des Information Retrieval
  • Verschiedene Modelle zur Relevanzbewertung von Dokumenten
  • Der Prozess des Webcrawling
  • Die Indexierung von Webinhalten
  • Tools für Webretrieval

Zusammenfassung der Kapitel

Die Einleitung stellt den Leser in das Thema Web Retrieval ein und erläutert dessen Bedeutung für die Suche und Analyse von Daten im Internet.

Der Abschnitt "Grundlagen Information Retrieval" beleuchtet die verschiedenen Modelle des Information Retrieval, die zur Extraktion relevanter Informationen aus Dokumenten dienen. Hier werden verschiedene Ansätze wie Mengentheoretische Modelle, Algebraische Modelle, Probabilistische Modelle und Hybridmodelle vorgestellt.

Der Abschnitt "Web Information Retrieval" befasst sich mit dem Prozess des Webcrawling, der die Grundlage für die Suche im Internet bildet. Hier werden die wichtigsten Bestandteile eines Webcrawlers erläutert, wie z.B. die Seed, die Frontier, der Downloader, das Repository und der Parser. Der Abschnitt beleuchtet auch die Herausforderungen, die mit dem Crawling des Deep Web verbunden sind, sowie die Probleme, die durch Bad Server und Bad Crawling entstehen können.

Der Abschnitt "Indexing" erklärt, wie ein Index für Webinhalte erstellt wird, um eine effiziente Suche in großen Datenmengen zu ermöglichen. Die vier Phasen der Indexierung, die Text-Extraktion, die Tokenisierung, die Normalisierung und die Erstellung der Indexliste, werden detailliert beschrieben.

Im Abschnitt "Tools für Webretrieval" werden zwei wichtige Tools für das Web Retrieval vorgestellt: Lucene und Nutch. Lucene ist eine Bibliothek, die Funktionen zur Erstellung von Suchmaschinen bietet, während Nutch eine Open-Source-Suchmaschine ist, die auf Lucene basiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Web Retrieval, Information Retrieval, IR-Modelle, Webcrawling, Indexierung, Lucene, Nutch, Deep Web, Bad Server, Bad Crawling, reguläre Ausdrücke, Tokenisierung, Normalisierung, Lemmatisierung, Stemming, invertierte Liste.

Excerpt out of 7 pages  - scroll top

Details

Title
Web Retrieval
Subtitle
Web Crawling & Indexing mit Lucene
College
Otto-von-Guericke-University Magdeburg  (Institut für Technische und Betriebliche Informationssysteme (ITI))
Course
Data & Knowledge Engineering
Authors
Florian Uhde (Author), Marco Hinz (Author)
Publication Year
2010
Pages
7
Catalog Number
V178610
ISBN (eBook)
9783656008095
ISBN (Book)
9783656927471
Language
German
Tags
DKE Web Retrieval Crawler
Product Safety
GRIN Publishing GmbH
Quote paper
Florian Uhde (Author), Marco Hinz (Author), 2010, Web Retrieval, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/178610
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  7  pages
Hausarbeiten logo
  • Facebook
  • Instagram
  • TikTok
  • Shop
  • Tutorials
  • FAQ
  • Payment & Shipping
  • About us
  • Contact
  • Privacy
  • Terms
  • Imprint