Hausarbeiten logo
Shop
Shop
Tutorials
En De
Shop
Tutorials
  • How to find your topic
  • How to research effectively
  • How to structure an academic paper
  • How to cite correctly
  • How to format in Word
Trends
FAQ
Zur Shop-Startseite › Informatik - Allgemeines

XML als Beschreibungssprache für Textcorpora

Titel: XML als Beschreibungssprache für Textcorpora

Magisterarbeit , 2005 , 66 Seiten , Note: 1,3

Autor:in: Thomas Zastrow (Autor:in)

Informatik - Allgemeines

Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Seitdem es elektronisch gespeicherte Daten gibt, existiert das Problem der unterschiedlichen Datenformate: Die Frage nach der Art und Weise, wie die Daten gespeichert werden. Programme unterschiedlicher Hersteller, die alle einem ähnlichen Zweck dienen, benutzen dennoch zueinander nicht kompatible Datenformate. So kann es vorkommen, dass eine Textverarbeitung die Dokumente einer anderen Textverarbeitung nicht oder nur mehr schlecht als recht lesen kann. Ältere Dokumente können nicht mehr verarbeitet werden, wenn es die sie erzeugenden Programme nicht mehr gibt oder diese auf aktuellen Computer-Plattformen nicht mehr laufen. Verschärfend kommt hinzu, dass auch die verwendeten Speichermedien einer rasanten Entwicklung unterliegen – heute noch auf dem aktuellsten Stand der Technik, in wenigen Jahren schon wieder veraltet und mit den dann gängigen Geräten nicht mehr lesbar. Liesse sich letzteres Problem noch durch das ständige Umkopieren auf neue Datenträger lösen, so bleibt doch weiterhin das Problem der verschiedenen Datenformate bestehen. In der Quantitativen Linguistik werden grosse Datenbestände in Form von Text-Corpora benötigt. Diese liegen zumeist als ASCII-Dateien1 vor: In dieser Form sind sie zumindest für Menschen direkt lesbar. Allerdings enthalten die Corpora unterschiedlichste linguistische Informationen und sind dementsprechend unterschiedlich strukturiert. In der Praxis bedeutet dies dass Programme, Schnittstellen etc., die für das eine Corpus erstellt wurden, nur mit erheblichen Anpassungs- Aufwand auf andere Corpora angewandt werden können. In dieser Arbeit soll versucht werden aufzuzeigen, dass es eine Alternative gibt: Mittels der „Extensible Markup Language“, kurz XML, liesse sich ein einheitlicher Workflow für die verschiedensten Corpora erstellen.

Leseprobe


Inhaltsverzeichnis

  • Einleitung
    • Schreibweisen
    • Verwendete Software
      • Java
      • Perl
  • Die „Extensible Markup Language“ (XML)
    • XML ein offener Standard
    • XML - Syntax
    • Wohlgeformte und gültige XML-Dokumente
    • Die Document Type Definition (DTD)
    • Die DTD des TAZ-Corpus
    • XML-Schema
      • Das Instanz-Dokument
      • Das XML-Schema Dokument
        • Der Kopf des XML-Schemas
        • Elemente deklarieren
        • Attribute deklarieren
    • Weitere Ansätze zur Erzeugung gültiger XML-Dokumente
    • Unterstützung fremdsprachlicher Zeichensätze
  • Be- und Verarbeitung von XML-Daten
    • XML Parsen
      • XML-Parser für Perl
        • XML::Parser
        • Das Modul XML::Parser::PerlSax
        • Das Modul XML::DOM
      • XML-Parser für Java
        • SAX-Parser
        • DOM-Parser
    • XPath
      • Teilbäume identifizieren
      • Attribute berücksichtigen
      • Der Inhalt eines Elements
      • Weitere Operatoren und Berechnungen
      • XPath-Beispiele anhand des TAZ-Corpus
    • XQuery
      • FOR, LET, WHERE und RETURN
      • Weitere Konstrukte
    • XUpdate
      • Elemente einfügen
      • Elemente anfügen
      • Elemente aktualisieren
      • Elemente löschen
      • Elemente umbenennen
    • Externe Datenquellen in XML-Daten integrieren
      • XLink
      • XPointer
      • XInclude
        • TAZ-Corpus: Meta-Daten mittels XInclude auslagern
    • Webservices
      • SOAP
      • XML-RPC
        • XML-RPC: Server-Implementierung
        • XML-RPC: Client-Implementierung
    • XML-Daten transformieren
      • XML-Daten mit CSS formatieren
      • XSLT
        • XSLT-Prozessoren
        • Grundlegende Syntax-Elemente
        • Abfragen
        • Weitere XSLT-Funktionen
        • Formatting Objects (XSL-FO)
        • XSLT-Beispiel anhand des TAZ-Corpus
  • Weitere Spezifikationen des W3C
    • XML-Elemente mit xml:id indizieren
    • Binären Daten Media-Typen zuweisen
    • SMIL - Synchronized Multimedia Integration Language
    • Scalable Vector Graphics
      • Grundlegende SVG-Elemente
      • Weitere SVG-Elemente
      • Transformationen
  • XML-Datenbanken
    • Das relationale Datenmodell versus XML
    • OpenSource XML-Datenbanken
    • Die XML-Datenbank exist
      • Installation von exist
      • XML-Workflow in exist
      • Das TAZ-Corpus in der exist-Datenbank
      • Deutsch-Englisches Wörterbuch
    • Beipielanwendung (Perl): Validieren des Zipfschen Gesetzes anhand des TAZ-Corpus
      • Programmlauf
  • Weitere Tools zum Bearbeiten von XML-Daten
    • XML-Editoren
      • Kommerzielle Produkte
      • OpenSource-Produkte
      • Übersicht
    • Weitere Perl-Module zur Verarbeitung von XML-Daten
      • XML:: Simple
      • XML::XPath
  • XML-Bearbeitung in weiteren Programmiersprachen
  • Schlussbemerkungen

Zielsetzung und Themenschwerpunkte

Diese Arbeit befasst sich mit der Anwendung der „Extensible Markup Language“ (XML) zur effizienten und standardisierten Verarbeitung von linguistischen Daten. Die zentrale Zielsetzung ist es, aufzuzeigen, wie XML einen einheitlichen Workflow für die unterschiedlichsten Text-Corpora ermöglichen kann und damit die Herausforderungen unterschiedlicher Datenformate und Strukturen in der quantitativen Linguistik zu überwinden.

  • Einheitlicher Workflow für Text-Corpora
  • Überwindung von Problemen mit Datenformaten
  • Einsatz von XML zur Strukturierung und Verarbeitung linguistischer Daten
  • XML-basierte Tools und Technologien für die quantitative Linguistik
  • Beispiele und Anwendungsbeispiele für die Verarbeitung von XML-Daten in der Praxis

Zusammenfassung der Kapitel

Die Einleitung führt in die Problematik der Datenformate und die Herausforderungen bei der Verarbeitung von Text-Corpora ein und stellt XML als Lösung vor. Kapitel 2 befasst sich mit den Grundlagen von XML, der Syntax, der Erstellung wohlgeformter und gültiger XML-Dokumente, sowie mit dem Einsatz von DTD und XML-Schema. Kapitel 3 behandelt verschiedene Aspekte der Verarbeitung von XML-Daten, einschließlich Parsen, XPath, XQuery, XUpdate, Integration externer Datenquellen und Transformationen.

Schlüsselwörter

XML, Text-Corpora, Quantitative Linguistik, Datenformate, Standardisierung, Workflow, DTD, XML-Schema, Parsen, XPath, XQuery, XUpdate, Webservices, Transformationen, Datenverarbeitung, Sprachtechnologie.

Ende der Leseprobe aus 66 Seiten  - nach oben

Details

Titel
XML als Beschreibungssprache für Textcorpora
Hochschule
Universität Trier
Note
1,3
Autor
Thomas Zastrow (Autor:in)
Erscheinungsjahr
2005
Seiten
66
Katalognummer
V35890
ISBN (eBook)
9783638356756
Sprache
Deutsch
Schlagworte
Beschreibungssprache Textcorpora
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Thomas Zastrow (Autor:in), 2005, XML als Beschreibungssprache für Textcorpora, München, GRIN Verlag, https://www.hausarbeiten.de/document/35890
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  66  Seiten
Hausarbeiten logo
  • Facebook
  • Instagram
  • TikTok
  • Shop
  • Tutorials
  • FAQ
  • Zahlung & Versand
  • Über uns
  • Contact
  • Datenschutz
  • AGB
  • Impressum