Ein Aligner ist ein Werkzeug, dass Sprachaufnahmen und deren phonetische Transkription analysiert und Zeitstempel für die jeweiligen Phoneme erzeugt. So ist der manuelle Aufwand für die Bearbeitung der Sprachdaten reduziert. Die Arbeit beschreibt das 'Trainieren' eines Aligners fürs Deutsche anhand lëtzebuergescher Sprachaufnahmen. So soll ein Aligner entstehen, der auch Lëtzebuergesch analysieren kann. Das Tool könnte dann verwendet werden, um leichter einen lëtzebuergeschen Sprachkorpus zu erzeugen.
Inhaltsverzeichnis
1 Einleitung
1.1 Motivation
1.2 Aufgabenstellung
2 Lëtzebuergesch
2.1 Geschichte Luxemburgs
2.2 Luxemburgisch
2.3 Dialekte
2.4 Koiné
2.5 Phonetik der luxemburgischen Koiné
2.6 Phonetik des Deutschen
2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen
3 Phonetische Alignierung als Erkennungsproblem
3.1 Toolgestiitze Spracherkennung mit dem Aligner
3.2 Funktionsweise
3.3 Phoneminventar und Aussprachelexikon
3.4 Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute
4 Aufbereitung der Sprachdaten
4.1 Vorhandene Sprachdaten
4.2 Aufteilung der Datensätze
4.3 Vorbereitung der Daten - Gilles-Korpus
4.3.1 Orthographische Transkription
4.3.2 Erstellung eines Aussprachelexikons
4.3.3 Generierung der phonetischen Transkriptionen
4.3.4 Korpusstruktur
4.4 Vorbereitung der Daten - das 6000-Wierder-Korpus
4.4.1 Bereinigung des Datensatzes
4.4.2 Aufteilung für Test und Training
4.5 Zusammenfassung
5 Implementierung
5.1 Alignioron der phonetischen Annotation mithilfe des deutschen Aligners
5.2 Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen mit den lötzebuergeschen
5.3 Erstellung der Hiddcn-Markov-Modclle für lötzebuergesche Phoneme
5.4 Integration der neuen Modelle in den Aligner
5.5 Anpassung der Vorverarbeitungskomponenten des Aligners
5.6 Zusammenfassung
6 Evaluierung
6.1 Vergleich der Aligner
6.2 Programm zur automatischen Evaluierung der Ergebnisse
6.3 Korrektur und zweiter Vergleich
6.4 Manuelle und automatische Alignierung
6.5 Ergebnisse
7 Zusammenfassung und zukünftige Forschung
7.1 Erweiterung der Funktionalität des Aligners
7.2 Entwicklung eines lötzebuergschen Aligners
7.3 Entwicklung eines Sprachkorpus für Lötzebuergesch
A Gilles-Korpus: Fragebuch Lötzebuergesch
В Die Perl-Funktionssammlung ConversionLibrary.pm
1 Einleitung
1.1 Motivation
Dio Spradiorkormurigstodmologio hat sidi in don lotzton Jahrzohnton stotig ontwickolt. Dor Umfang dos orkarmton Wortschatzes, dio Znvorlässigkoit sowio dio Zngänglidikoit dor Spracherkenmmgssyste- rno ist konstant gostiogon. Dioso Technologie, dio os dom Monsdion ermöglicht, Spradio als Eingabe- modium zu benutzen, ist inzwisdion allgogonwärtig - sio ist Toil dor moiston gängigon Botriobssystomo und oingobant in violo Mobiltelefone. Spradiorkonnnng ist solir populär als Toil von Dialogsystomon - Applikationen, dio dom Bonutzor dio Ein- und Ausgabo von Daton iibor das Tolofon orlaubon. Sprach- dialogsystomo wordon eingesetzt, um Hotlinos zu ontlaston und dom Kundon oinon zügigeren, besser orroiclibaron Sorvico zu bioton.
Dio Forschung sowio dio stoigondo Rodionloistung waron dio wichtigston Faktorom dio zu diosor Entwicklung boigotragon habón. Sio habón os ermöglicht, immer zuverlässigere Erkenner zu bauen, die immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensanmihmgen (auch Korpora genannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen repräsentieren, können robuste und flexible Spracherkennungssysteme entwickelt werden. Sie sind immer weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.
Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäßig. Obwohl die Forschung die Technologie vorantrieb, waren die Sprachkorpora für nur wenige, große Sprachen verfügbar. Dies hat sich mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind. Die Suche im Katalog des Linguistic Data Consortium [Lin07] zeigt eine Sammlung unterschiedlicher Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäßig - für Deutsch und Französisch sind in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch keins.
Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts [Dra97] aufgenom- rneri. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für die Aufnahme um das mehrfache übersteigt.. Nach Gillis [GDG06] kann das Verhältnis von Annotationszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer Minute eines Audiosignals bis zu einer Stunde dauern.[1]
1.2 Aufgabenstellung
Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen Sprachlaute, dio Phoneme, auf dor Zoitachso zu ’alignioron’. Das Alignioron ist oin Prozess, in dom dio vorgegebene phonetische Transkription mit Zoitstompoln für don Anfang und das Endo oinos joden Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als Ausgabe liefert er eine Datei, die eine mit Zcitstcmpcln versehene phonetische Transkription der Äußerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignicrung fehlerfrei verlaufen ist, als eine Komponente eines Sprachcrkcnnungs- oder Synthescsystcms genutzt werden.
Die Aufgabe stellt somit eine Variante des ”Herme-Ei-Probleriis” dar. Um einen Aligner für das Luxemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdatcn erforderlich. Andererseits wird für die Erstellung solcher Sprachdatcn ein Aligner benötigt. Das manuelle Alignioron der Trainigsdatcn ist möglich, jedoch im Zoitrahmon dieser Arbeit nicht realisierbar.
Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann, sind Trainigsdatcn aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus [Gil99j sowie aus dem 6000-Mots-Korpus fclcOľj eingesetzt. Da es sich hierbei um reine Sprachaufnahmen handelt, werden diese zuerst manuell phonetisch annotiert. Die Annoticrung erfolgt, gleichzeitig im deutschen und luxemburgischen Lautsystem [Wol95]. Danach folgt eine automatische Alignicrung mit dem deutschen Aligner, der von Stefan Rapp [Rap95] am Institut für Maschinelle Sprachvcrarbci- tung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert und die Testergebnisse automatisch ausgewertet.
Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lötzcbu- ergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Alignicrcung mindestens so präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen ist.
2 Lëtzebuergesch
2.1 Geschichte Luxemburgs
Die geographische Lage Luxemburgs sowie die turbulente Geschichte haben die linguistische Entwicklung der Region stark beinflusst. [Gil99, S. 3-5] enthält eine Zusammenfassung der wichtigsten Ereignisse in der Geschichte des Landes. Die Tatsache, dass Luxemburg an der Grenze des romanischen und Germanischen Kulturraumes liegt, trug zu der Mehrsprachigkeit der Bewohner sowie der Vielzahl der Dialekte bei. Die ersten Anzeichen einer kulturellen Dualität stammen bereits von 1340, als Johann der Blinde (de blarme Jhang), Herrscher Luxemburgs, das Land zum ersten Mal in das quartier wallon und das quartier allemand teilte. Bisher ist es jedoch umstritten, ob diese Aufteilung administrative oder linguistische Gründe hatte.
Die größten politischen Änderungen, die die moderne Sprachentwicklung maßgeblich beeinflusst haben, fanden in der 1. Hälfte des 19. Jahrhunderts statt. Infolge des Wiener Kongresses von 1815 musste das Land den östlichen Teil der deutschsprachigen Gebiete an Preußen abgeben. Eine weite- ro Teilung folgte 1839: als Konsequenz des damals unterschriebenen Londoner Vertrags hat Belgien den nahezu gesamten französischsprachigen Teil Luxemburgs annektiert. Die heutigen politischen Grenzen des Landes haben sich seit der 1839 nicht mehr verändert. Dieses Jahr markiert auch die Gründung des Nationalstaates und das Erlangen der Unabhängigkeit. Man muss dabei sagen, dass das heutige Gebiet des Landes nahezu ausschließlich aus historisch gormanophonon Regionen besteht. Die Tatsache, dass das Land an einer bi- bzw. trilingualen Tradition festhält, kann man jedoch sozialpsychologisch erklären. Die Verschmelzung der Kulturen ist ein Teil der luxemburgischen Geschichte und ein wichtiger Aspekt der nationalen Identität.
2.2 Luxemburgisch
Nach [Gil99. S. 7.8] ist das Lötzebuergesche (Luxemburgische) aus dem Westmoselfränkischen entstanden. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu dem Thema ist u.a. in [Bru53] zu finden.
Heutzutage stehen Deutsch. Französisch und Lötzebuergesch in einem triglossischen Verhältnis zueinander. Lötzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häufigsten verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt und werden als Fremdsprachen wahrgenommen.
In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lötzebuergesche wird hauptsächlich im privaten und halböffentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei Sprachen vor. wobei der lötzebuergesche Anteil in der Literatur konstant steigt.. Die Tageszeitungen sind zwei- oder dreisprachig. Die Texte des öffentlichen Bereichs werden entweder auf Deutsch oder Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet.
Nach [Gil99. S. 9] ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein domänengebundener Wechsel in das Deutsche oder das Französische findet nicht statt. Diese Tatsache trifft unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching[2], das integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist. findet in Luxemburg nicht statt.
Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenom- rneri. die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung definiert. Die offizielle ISO-639-1-Abkürzung für Lötzebuergsch ist 1b. In dem Standard ISO-639-2 flnt.98] wurde diese Bezeichnung auf Itz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung Ib-LU (Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spracherkennern durchgesetzt hat.
2.3 Dialekte
Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert werden. [Gil99, S. 50] listet neun Varietäten auf, die in 16 Regionen zu finden sind, drei davon in Luxemburg.
Eine grobe Aufteilung der Luxemburger Dialekte befindet sich in [Gil99, S. 63]. Demnach kann das Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden:
- Zentrum (Luxemburg-Stadt und Alzettetal)
- Süden (rund um Esch-sur-Alzette)
- Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze)
2.4 Koiné
Der Begriff ’Koiné’ stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Sprache zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist [Gil99, S. 14]. Die Koinémerung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden.
Dieser Begriff wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet. Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, das sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten ist. Für eine ausführliche Diskussion wird auf [Gil99, S. 12-22] verwiesen.
Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häufigsten im Zentrum und im Süden des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat. Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.
2.5 Phonetik der luxemburgischen Koiné
Die unten aufgeführte Klassifizierung der luxemburgischen Phonetik basiert auf den Untersuchungen von Peter Gilles ([Gil99, S. 75], [Gil06]). Eine detaillierte Darstellung ist wichtig, um einen Vergleich mit dem deutschen Lautsystem, auf dem der Aligner basiert, zu ermöglichen. Auf die Unterschiede zwischen den beiden Systemen wird in Abschnitt 2.7 näher eingegangen.
Die folgenden Paaren stellen einen Diphtong sowie dessen freie Variante dar:
Abbildung in dieser Leseprobe nicht enthalten
Tabello 1: Konsonanten im Lëtzebnergeschen nach [Gil07]
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2: Vokale im Lëtzebnergeschen nach [GilOG]
Abbildung in dieser Leseprobe nicht enthalten
Die fett markierten Vokale kommen im Lëtzebnergeschen mir selten vor.
Abbildung in dieser Leseprobe nicht enthalten
2.6 Phonetik des Deutschen
Der Aligner für das Luxemburgische baut auf der deutschen Version des Programms auf. Der ursprüngliche Aligner ist imstande sämtliche Phoneme, die im deutschen Lautsystem Vorkommen, zu alignieren. Da dieses System die Grundlage für den luxemburgischen Aligner darstellt, wird es hier kompakt vorgestellt. Dio untori vorgostollto Klassifizionmg dor doutschon Konsonanton, Vokalon und Diphtongon basiort auf [РМ03]. In Kapitol 3 wird anschließend darauf eingegangen, wio diosos Invon- tar dor doutschon Phonomo im Alignor abgobildot wird.
Tabollo 3: Dio doutschon Konsonanton nach [PM03, S. 265]
Abbildung in dieser Leseprobe nicht enthalten
Für Bcispicläußcrungcn, dio dioso Phonomo enthalt on, wird auf [PM03]vorwison. Man muß hierbei vermerken, dass Affrikatc, da sie aus Paaren von den bereits aufgelisteten Phonemen bestehen, nicht in der Zusamenstellung berücksichtigt, werden.
Die Phoneme [x] und [x] sind ausgeklammert, da sie laut [PM03] als allophonische Varianten von [ç] zu betrachten sind und nur unter bestimmten Umständen orthographisch transkribiert werden. Das gleiche gilt für den Glottisverschluss ([?]), der nur vor initialen Vokalen auftritt und kein orthographisches Gegenstück besitzt.
2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen
Ein Vergleich der beiden Lantsysteme zeigt, dass das Luxemburgische eine größere Vielfalt an Phonemen aufweist als das Deutsche. Manche Phoneme können als Aussprachevarianten gegenüber dem Deutschen betrachtet werden, wie z.B. [i] und [i]. Andere kommen im Deutschen nicht vor, wie z.B. der Halbkonsonant [w]. In Tabelle 4 werden diese Phoneme zusammengefasst, gemeinsam mit ihren deutschen Gegenstücken, soweit vorhanden.
Ini Nachfolgenden wird auf die Phoneme, die lediglich im Luxemburgischen und nicht im Deutschen Vorkommen, näher eingegangen. Die Liste basiert auf [Gil07].
Konsonanten:
- [w] - labiodentaler Approximant, Halbkonsonant. Beispiele: geschwat [ga'Jwait], schwéier ['Jwaie].
- [c] - stimmloser, präpalataler Frikativ, dem deutschen [J] sehr ähnlich. Beispiele: sécher ['zeye], kierperlech ['kiapelay], néideg ['naiday].
- [ý] - stimmhafter, präpalataler Frikativ, dem deutschen [3] sehr ähnlich .Beispiel: liéijen ['haiýan].
- [è] - stimmhafter, velarer Frikativ. Beispiel: Jugend [juixant].
Vokale:
- [æ] - vorne, kurz, fast offen, ungerundet, gespannt. Beispiele: Kächen ['kæyan], Hengscht [hæpJt].
- [æi] - vorne, lang, fast offen, ungerundet, gespannt. Wird als Variante von [ai] verwendet.
- [i] - vorne, kurz, geschlossen, ungerundet, gespannt. Beispiele: iddi ['idi], midd [mit], gin [gin], kill [kil], to Deutschen wird stattdessen der kurze, fast geschlossene, ungespannte Vokal [i] verwendet.
- [u] - hinten, kurz, geschlossen, gerundet, gespannt. Beispiele: Tulp [tulp], Kuch [kux]. Im Deutschen wird stattdessen der kurze, fast geschlossene, ungespannte Vokal [u] verwendet.
- [o] - hinten, kurz, halb geschlossen, gerundet, gespannt. Beispiele: Post [post], Loscht [lojtj. Im Deutschen wird stattdessen der kurze, halb offene, ungespannte Vokal [o] verwendet.
- [e] - zentral, kurz, leicht gerundet, halb geschlossen. Beispiele: mell [mel], Lescht [lejt]. [e] wird im Lëtzebuergeschen als gerundete, freie Variante von [э] verwendet.
- [e] - vorne, kurz, halb geschlossen, ungerundet, gespannt. Beispiele: Méck [mek], sécher ['zepe], kéng [kep]. to Deutschen kommt dieser Vokal lediglich als eine lange Variante, [e:], vor.
Diphtonge:
- [i@] - vorne, geschlossen ^ zentrd, mittel. Beispiele: liesen ['li@z@n], Wieder ['vi@de]
- [u@] - hinten, geschlossen ^ zentral, mittel. Beispiele: Kueb [ku@p], Buedem ['bu@d@m].
- [ei], [@i] (freie Variante) - vorne, halb geschlossen ^ vorne, geschlossen. Beispiel: spéit [jpeit].
- [ou], [@u] (freie Variante) - hinten, halb g eschlossen ^ hinten, geschlossen. Beispiel: Schoul [joul],
- [æ'i], [a'i] (freie Variante) - vorne, fast offen, gespannt ^ vorne, geschlossen, gespannt. Beispiele: Zäit [tsæ-it], däin [dæ'in].
3 Phonetische Aligniemng als Erkennungsproblem
Abbildung in dieser Leseprobe nicht enthalten
3.1 Toolgestütze Spracherkennung mit dem Aligner
Der Aligner [Rap95] ist ein Werkzeug, das die phonetische Annotation von Sprachdaten automatisiert. Dafür bietet er eine Reihe von Funktionalitäten. Zuerst ermöglicht er die automatische Erstellung von phonetischen Transkriptionen anhand orthographisch transkribierter Daten. Weiterhin aliginiert er die phonetische Analyse mit der Sprachaufnahme. In diesem Schritt wird jedes Phonem mit einem Zeitstempel versehen, der markiert, wann das Phonem anfängt, und wann es endet. Letztendlich kann der Aligner Zeitstempel für Silben- und Wortgrenzen vergeben. Für jede solche Kategorie (Phonem-, Silben- und Wortmarkierung) wird eine separate Textdatei mit einer Sammlung von Zeitstempeln erstellt.
3.2 Funktionsweise
Die Alignierung und die Spracherkennung unterscheiden sich nicht stark voneinander. Ein Spracherkenner versucht anhand einer Grammatik festzustellen, welche Wörter ein Audiosignal enthält. Die Grammatik liefert dabei einen finiten Satz der möglichen Äußerungen. Der Erkenner versucht festzustellen, welche der in der Grammatik vorgegebenen Möglichkeiten am wahrscheinlichsten erscheint.
Dor Inhalt dor Aufriahmo ist hiorboi vorrangig, dio gonanon Zoitstompol dor Einhcits-(Wort-)grcnzen sind dafür von wonig Bodontnng.
Dor Alignor ist aneli oin Spracherkenner. jodoch mit dom nmgokolirton Ansatz. Dor Inhalt einer Sprachanfnahmo ist boroits bokarmt und so. zwoitrangig. Dafür spiolon dio gonanon Einhoitsgronzon dio wichtigo Rollo. Dor Alignor macht oino Sprachorkonmmg - jodoch mithilfe oinor Grammatik, dio nur oino bestimmte folgo von Einheiten erlaubt. Bei dem Aligner sind die Einheiten nicht ganze Wörter, sondern einzelne Phoneme.
Das Programm basiert auf zwei Technologien. Die erste ist das CELEX-Lexikon [BPR93]. das eine hochqualitative phonetische Transkription gestattet. Das CELEX enthält neben phonetischen auch morphosyntaktische Informationen, die eine Analyse auf Silben- und Wortebene ermöglichen. Der Aligner akzeptiert ausschliesslich eine Folge von Phonemen als gültige Eingabe. Dank CELEX ist es dem Benutzer jedoch möglich, lediglich die orthographische Transkription einer Sprachaufnahme anzugeben. Die notwendige phonetische Transkription wird zur Laufzeit durch das Nachschalgen im CELEX-Lexikon erstellt. Sollte ein Eintrag nicht im Lexikon vorhanden sein, wird eine phonetische Transkription regelbasiert generiert [Rap95j.
Die zweite wichtige Technologie ist das Konzept der Hiddon-Markov-Modolle[3]. Diese Technologie ist in dem HTK-Toolkit fYEG+06] implementiert. Mittels НТК wird ein Hidden-Markov-Modell für jedes deutsche sowie jedes luxemburgische Phonem erstellt. Das HTK-Toolkit ist auch für das eigentliche Alignieren der Phoneme zuständig.
3.3 Phoneminventar und Aussprachelexikon
Das Phoneminventar des Aligners basiert auf dem deutschen Lautsystem. Der Aligner ist imstande jedes beliebige Phonem zu erlernen, also ein Hidden-Markov-Modell zu erstellen, für das er Beispieldaten zur Verfügung hat. Somit ist das Lautinventar des Programms stark von den verwendeten Daten abhängig.
Das Deutsche Modul wurde mithilfe des Kiel-Korpus [Koh95]erstellt. Dementsprechend enthält die Menge der Phonemmodelle lediglich die Lautmodelle. die in dem Korpus auch Vorkommen. So entstellt die folgende Liste der unterstützten Phoneme:
Konsonanten: f v s z J j ç j x h l R q m n p b t d k g
Vokale: i: e: e: a: o: u: y: 0: э 5 i e a о и y œ
Diphtonge: ai aU oy
Der Aligner hat u.a. die Aufgabe aus einer orthographischen Transkription eine phonetische Transkription zu generieren und die Phoneme mit der vorhandenen Audiodatei zu alignieren. Die Generierung einer phonetischen Transkription muss hier zuverlässig funktionieren. Falsche, oder falsch angeordnete Phoneme könnten das Alignieren zum Scheitern bringen.
Die deutsche Aussprache basiert zum Großteil auf Regeln. Der Aligner kann diese Regeln verwenden, um die Aussprache eines beliebigen deutschen Wortes zu erraten. Bei Fremdwörtern oder Eigennamen funktioniert dieser Ansatz jedoch nicht zuverlässig. Für eine hochqualitative phonetische Transkription ist daher ein externes Lexikon notwendig, der von menschlicher Hand erstellt worden ist. Finden deutschen Aligner wird die CELEX-Datonbank [BPR93] verwendet. Da diese Sammlung umfangreich ist (395 611 Einträge), bleibt es dem Benutzer meistens erspart ein eigenes Aussprachelexikon erstellen zu müssen.
Das CELEX enthält keine Einträge für das Luxemburgische. Für den Einsatz im Aligner wird deshalb das Aussprachelexikon aus dem 6000-Wierder-Korpus verwendet (feleOTj. siehe auch Abschnitt 4.4). Ini Kontrast zum CELEX bietet dieses Lexikon keine syntaktischen Informationen zu Silbengrenen sowie Wortklassen. Aus diesem Grund wird in der luxemburgischen Version des Aligners auf die Analyse von Silben- sowie Wort grenzen verzichtet.
3.4 Abbildung der lëtzebuergeschen Phoneme auf deutsche Sprachlaute
Die vorhandenen Korpora (siehe Abschnitt 4.1) sind nur zum Teil phonetisch annotiert, jedoch nicht aligniert. Die manuelle Alignierung dieser Daten liegt, außerhalb des Skopus dieser Arbeit. Es ist deswegen sinnvoll, sich des deutschen Aligners zu bedienen.
Da der Aligner auf einem deutschen Korpus trainiert wurde, ist sein Phoneminventar nur teilweise für diesen Zweck geeignet. Einige der letzëbuergeschen Sprachphänomene werden damit nicht abgedeckt. Man kann jedoch die existierende, deutsche Version des Programms verwenden, um die ersten luxemburgischen Trainigsdaten zu alignieren. Davor muss man jedoch feststellen, welche deutschen Laute den fehlenden Lëtzebuergeschen Phonemen am ähnlichsten sind. d.h. sich möglicherweise in nur einem Feature unterscheiden[4].
4 Aufbereitung der Sprachdaten
4.1 Vorhandene Sprachdaten
Wie bereits im Abschnitt 1.1 erwähnt, gibt es für das Lëtzebuergesche bisher keine offiziellen Korpora. Es ist deswegen notwendig, sich der Sprachdaten zu bedienen, die zwar gesammelt, jedoch noch nicht phonetisch nachgearbeitet und nicht offiziell als Korpora veröffentlicht worden sind. Dazu zählt das Gilles-Korpus [Gil99] sowie die Aufnahmen für das Online-Wörterbuch 6000 Wierder feleOTj. Beide wurden von Peter Gilles (Universität Luxemburg) zur Verfügung gestellt.
Das Gilles-Korpus ist im Rahmen einer Studie der lëtzebuergeschen Dialekte entstanden. Es enthält Audiodaten von 23 Sprechern aus vier Regionen Luxemburgs (Osten. Norden. Süden. Zentrum). Jeder Sprecher hat eine Liste von 119 Sätzen vorgelesen. Diese Liste ist eine gekürzte Fassung des Fragebuchs. das bereits zur Erstellung des Mittelrheinischen Sprachatlasses [Bel94] verwendet wurde.
[...]
[1] Gillis nennt aber nur die Schätzungen für eine breite phonetische Annotation; für die enge Transkription ist dieser Aufwand noch größer.
[2] Code Switching (auch: Sprachwochsol, Kodewechsel) Das Metzler-Lexikon Sprache [G1Ü05] definiert es als ”Wechsel zwischen zwei Sprachen oder Dialekten innerhalb einer Äußerung oder eines Dialogs bei bilingualen Sprechern /Schreibern, meist durch Kontextfaktoren bedingt”.
[3] Für eine kompakte Einführung ist [YEG+06, S. 3-13] zu empfehlen.
Häufig gestellte Fragen
Was ist das Ziel dieser Arbeit?
Ziel dieser Arbeit ist es, einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebuergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Alignierung mindestens so präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen ist.
Was ist ein Aligner?
Der Aligner ist ein Werkzeug, das eine Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden Phonems versehen wird.
Warum ist die Entwicklung eines Aligners für das Lëtzebuergesche wichtig?
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nacharbeit erfordern. Ein Aligner soll die Zeit und Kosten für die Entwicklung eines Sprachkorpuses des Luxemburgischen drastisch reduzieren.
Welche Sprachdaten werden für die Entwicklung des Aligners verwendet?
Es werden das Gilles-Korpus und das 6000-Wierder-Korpus verwendet. Diese Korpora werden manuell phonetisch annotiert und dann mit dem deutschen Aligner automatisch aligniert.
Worauf basiert die Phonetik Klassifizierung des Lëtzebuergeschen?
Die Phonetik Klassifizierung des Lëtzebuergeschen basiert auf den Untersuchungen von Peter Gilles.
Wie unterscheidet sich das Lëtzebuergesche vom Deutschen in Bezug auf Phoneme?
Das Luxemburgische weist eine größere Vielfalt an Phonemen auf als das Deutsche. Manche Phoneme können als Aussprachevarianten gegenüber dem Deutschen betrachtet werden, andere kommen im Deutschen nicht vor.
Welche Sprachen haben Luxemburg beeinflusst?
Die geographische Lage Luxemburgs sowie die turbulente Geschichte haben die linguistische Entwicklung der Region stark beinflusst. Die Tatsache, dass Luxemburg an der Grenze des romanischen und Germanischen Kulturraumes liegt, trug zu der Mehrsprachigkeit der Bewohner sowie der Vielzahl der Dialekte bei.
Was ist die luxemburgische Koiné?
Der Begriff ’Koiné’ stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Sprache zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist. Dieser Begriff wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet.
Wie funktioniert der Aligner?
Der Aligner ist im Grunde ein Spracherkenner, aber mit umgekehrtem Ansatz. Der Inhalt einer Sprachaufnahme ist bereits bekannt und somit zweitrangig. Dafür spielen die genauen Einheitsgrenzen die wichtige Rolle. Der Aligner macht eine Spracherkennung - jedoch mithilfe einer Grammatik, die nur eine bestimmte Folge von Einheiten erlaubt. Bei dem Aligner sind die Einheiten nicht ganze Wörter, sondern einzelne Phoneme.
Welche Technologien werden im Aligner verwendet?
Der Aligner basiert auf zwei Technologien: dem CELEX-Lexikon und dem Konzept der Hidden-Markov-Modelle (HMM).
Was ist das CELEX-Lexikon?
Das CELEX-Lexikon enthält neben phonetischen auch morphosyntaktische Informationen, die eine Analyse auf Silben- und Wortebene ermöglichen. Der Aligner akzeptiert ausschliesslich eine Folge von Phonemen als gültige Eingabe. Dank CELEX ist es dem Benutzer jedoch möglich, lediglich die orthographische Transkription einer Sprachaufnahme anzugeben. Die notwendige phonetische Transkription wird zur Laufzeit durch das Nachschalgen im CELEX-Lexikon erstellt.
Was sind Hidden-Markov-Modelle (HMM)?
Mittels HTK wird ein Hidden-Markov-Modell für jedes deutsche sowie jedes luxemburgische Phonem erstellt. Das HTK-Toolkit ist auch für das eigentliche Alignieren der Phoneme zuständig.
- Arbeit zitieren
- Syxtus Gaal (Autor:in), 2008, Automatische phonetische Annotation - ein HMM-basierter Aligner für das Lëtzebuergesche, München, GRIN Verlag, https://www.hausarbeiten.de/document/179538