Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumenteausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen. Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low- level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haup tteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.
Inhaltsverzeichnis
- 1 Einleitung
- 2 Überblick verschiedener Sprach- und Schriftklassen
- 3 Dokumentuntersuchung und – erkennung
- 3.1 Vorbereitung der Dokumente
- 3.2 Schrift-Klassifizierung
- 3.2.1 Ausdehnung der Bounding Boxen
- 3.2.2 Höhenverteilung
- 3.2.3 Horizontale Projektion
- 3.2.4 Upward Concavity
- 3.3 Spracherkennung
- 3.3.1 Shape Coding bei romanischen Sprachen
- 3.3.2 Optical Density bei Han-basierten Sprachen
- 3.3.3 N-Gram basierter Algorithmus
- 3.4 Testergebnisse ausgewählter Verfahren
- 3.4.1 Shape Codes
- 3.4.2 N-Gram basierter Algorithmus
- 4 Schluss und Zukunftsausblick
Zielsetzung und Themenschwerpunkte
Die vorliegende Arbeit beschäftigt sich mit der automatischen Spracherkennung von Dokumenten, basierend auf low-level Informationen. Das Ziel ist es, Methoden zu entwickeln, die die Sprache eines Dokuments zuverlässig identifizieren können, bevor es durch ein OCR-System verarbeitet wird. Dies soll durch die Analyse von Schriftmerkmalen und -strukturen erfolgen, die unabhängig von der konkreten Sprache des Dokuments sind.
- Klassifizierung von Sprach- und Schriftklassen
- Untersuchung und Vorbereitung von Dokumenten
- Entwicklung von Methoden zur Schrift- und Spracherkennung
- Bewertung der entwickelten Verfahren anhand von Testdaten
- Zusammenfassung der Ergebnisse und Ausblick auf zukünftige Entwicklungen
Zusammenfassung der Kapitel
Im ersten Kapitel wird die Relevanz des Themas im Kontext der zunehmenden globalen Kommunikation und der Notwendigkeit der Informationsorganisation beleuchtet. Es wird die Bedeutung der elektronischen Datenverarbeitung und der OCR-Systeme für die Dokumentenverwaltung hervorgehoben. Die Arbeit stellt das Problem der Spracherkennung vor, das bei der Anwendung von OCR-Systemen entsteht, da die meisten Systeme eine vorherige Kenntnis der Sprache des Dokuments voraussetzen.
Kapitel 2 bietet einen Überblick über verschiedene Sprach- und Schriftklassen. Es werden wichtige Sprachfamilien wie die romanischen Sprachen, indogermanische Sprachen und Han-basierte Sprachen vorgestellt und ihre charakteristischen Merkmale beschrieben. Die Bedeutung der Schriftarten für die Spracherkennung wird betont, und es wird auf die Unterschiede zwischen der lateinischen Schrift und den Han-Schriften eingegangen.
Im dritten Kapitel werden Methoden zur Dokumentenuntersuchung und -erkennung vorgestellt. Es wird beschrieben, wie Dokumente vorbereitet werden, um die notwendigen Informationen für die Schrift- und Spracherkennung zu extrahieren. Es werden verschiedene Verfahren zur Schriftklassifizierung, wie die Analyse von Bounding Boxen, Höhenverteilungen und horizontalen Projektionen, vorgestellt. Anschließend werden Spracherkennungsmethoden wie Shape Coding für romanische Sprachen, Optical Density für Han-basierte Sprachen und ein N-Gram-basierter Algorithmus diskutiert.
Das vierte Kapitel präsentiert die Testergebnisse ausgewählter Verfahren und zeigt die Leistungsfähigkeit der entwickelten Methoden auf. Es werden die Ergebnisse der Schriftklassifizierung und Spracherkennung anhand von Testdaten analysiert und die Ergebnisse diskutiert.
Schlüsselwörter
Spracherkennung, Dokumentenanalyse, Schriftklassifizierung, Han-Schriften, lateinische Schrift, Optical Character Recognition (OCR), Shape Coding, Optical Density, N-Gram-basierter Algorithmus, low-level Informationen.
- Quote paper
- Kerim Galal (Author), 2003, Classification of Document Languages Using Low-Level Information, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/40457