Hausarbeiten logo
Shop
Shop
Tutorials
En De
Shop
Tutorials
  • How to find your topic
  • How to research effectively
  • How to structure an academic paper
  • How to cite correctly
  • How to format in Word
Trends
FAQ
Go to shop › Didactics - Computer Science

Informationsextraktion von Webseiten via RoadRunner

Title: Informationsextraktion von Webseiten via RoadRunner

Research Paper (postgraduate) , 2009 , 21 Pages , Grade: 1

Autor:in: M.A. Pawel Broda (Author)

Didactics - Computer Science

Excerpt & Details   Look inside the ebook
Summary Excerpt Details

Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt.
Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.
In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Excerpt


Inhaltsverzeichnis

  • Einführung und Zielbeschreibung
  • Informationsextraktion - Genese, Ziele und Probleme
    • Geschichte der Informationsextraktion
    • Ziele der Informationsextraktion
    • Probleme bei der Informationsextraktion
    • Verfahren der Informationsextraction
  • Informationsextraktion mit RoadRunner
    • Allgemeines
    • Ablauf der Extraktion bei RoadRunner
      • Eingabe
      • Verarbeitung
      • Ausgabe
  • Fazit
  • Literaturverzeichnis

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Informationsextraktion von Webseiten mithilfe des Tools RoadRunner. Ziel ist es, die Funktionsweise von RoadRunner anhand konkreter Beispiele zu erläutern und die Ergebnisse zu diskutieren.

  • Genese, Ziele und Probleme der Informationsextraktion
  • Funktionsweise von RoadRunner
  • Anwendungen und Einsatzbereiche der Informationsextraktion
  • Herausforderungen und zukünftige Entwicklungen

Zusammenfassung der Kapitel

Das erste Kapitel führt in die Thematik der Informationsextraktion ein und beleuchtet die historische Entwicklung, die Ziele und die Herausforderungen dieses Bereichs. Es werden verschiedene Verfahren der Informationsextraktion vorgestellt und die Bedeutung der Web Informationsextraktion im Kontext des wachsenden Datenvolumens im Internet hervorgehoben.

Das zweite Kapitel konzentriert sich auf das Tool RoadRunner und beschreibt dessen Funktionsweise im Detail. Es werden die einzelnen Schritte des Extraktionsprozesses, von der Eingabe bis zur Ausgabe, erläutert und anhand von Beispielen veranschaulicht. Die Vorteile und Grenzen von RoadRunner werden ebenfalls diskutiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Informationsextraktion, Web Informationsextraktion, RoadRunner, Datenextraktion, HTML-Dokumente, semi-strukturierte Daten, Natural Language Processing (NLP), Information Retrieval, Precision, Recall.

Excerpt out of 21 pages  - scroll top

Details

Title
Informationsextraktion von Webseiten via RoadRunner
College
LMU Munich  (Centrum für Informations- und Sprachverarbeitung)
Course
Web Data Mining
Grade
1
Author
M.A. Pawel Broda (Author)
Publication Year
2009
Pages
21
Catalog Number
V141716
ISBN (eBook)
9783640518449
ISBN (Book)
9783640518647
Language
German
Tags
informationsextraktion wrapper information retrieval web data mining roadrunner webseiten internet extraktion von webseiten information extraktion
Product Safety
GRIN Publishing GmbH
Quote paper
M.A. Pawel Broda (Author), 2009, Informationsextraktion von Webseiten via RoadRunner, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/141716
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • https://cdn.openpublishing.com/images/brand/2/preview_popup_advertising.jpg
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  21  pages
Hausarbeiten logo
  • Facebook
  • Instagram
  • TikTok
  • Shop
  • Tutorials
  • FAQ
  • Payment & Shipping
  • About us
  • Contact
  • Privacy
  • Terms
  • Imprint