Stellen Sie sich vor, Sie könnten in einer riesigen Klanglandschaft navigieren, geleitet von der subtilen Melodie der Ähnlichkeit. Dieses Buch enthüllt die faszinierende Reise eines bahnbrechenden Projekts, das darauf abzielt, ein computergestütztes System zur Erkennung von Klangereignissen zu entwickeln, ein Plug-in für den Acousmographe, eine Software zur grafischen Darstellung und Analyse von Klängen. Tauchen Sie ein in die Welt der digitalen Signalverarbeitung und der künstlichen Intelligenz, während wir die Herausforderungen und Triumphe bei der Schaffung eines Systems erkunden, das in der Lage ist, eine gesamte Audiodatei nach klanglich verwandten Ereignissen zu durchsuchen, basierend auf einem einzigen ausgewählten Klang. Von der Vorverarbeitung des Audiosignals durch innovative Gehörmodelle bis hin zur Anwendung selbstorganisierender neuronaler Netze und Hidden Markov Modellen enthüllt diese Arbeit die komplexen Schichten eines modularen Systems. Entdecken Sie, wie dieses System, realisiert mit der Leistungsfähigkeit von Matlab, die Kluft zwischen menschlicher Klangwahrnehmung und maschineller Analyse überbrückt. Erfahren Sie mehr über die topologie-erhaltende Abbildung von Klängen, die es ermöglicht, ähnliche Klänge auf einer Karte zu visualisieren und zu vergleichen, ein Konzept, das von der Funktionsweise biologischer neuronaler Netze inspiriert ist. Lassen Sie sich von den potenziellen Anwendungen in Wissenschaft und Pädagogik inspirieren, von der wahrnehmungsorientierten Organisation von Klängen in Datenbanken bis hin zur Entwicklung neuer Werkzeuge für Musiker und Klangforscher. Dieses Buch ist ein Muss für alle, die sich für Klangsynthese, automatische Spracherkennung, Musikinformatik und die Zukunft der computergestützten Musikanalyse interessieren. Begleiten Sie uns auf dieser akustischen Entdeckungsreise und erleben Sie, wie Technologie unsere Wahrnehmung der Klangwelt revolutionieren kann. Wagen Sie den Sprung in eine Welt, in der Klänge nicht nur gehört, sondern auch verstanden werden.
Computerbasierte Erkennung von Klangereignissen
Christian Spevak
University of Hertfordshire
Juni 1999
Zusammenfassung
Dieser Beitrag skizziert das Konzept für ein System zur compu- terbasierten Erkennung von einander ähnlichen Klangereignissen. Es soll als Plug-in für den Acousmographe, ein Programm zur graphi- schen Darstellung und Analyse von Klängen, realisiert werden. Ziel ist, anhand eines ausgewählten Klangereignisses die gesamte Audioda- tei nach klanglich ähnlichen Ereignissen zu durchsuchen. Das Modell gliedert sich in drei Stufen - eine Vorverarbeitung, ein selbstorgani- sierendes neuronales Netzwerk und ein Hidden Markov Modell, deren Funktion dieser Aufsatz im Einzelnen beschreibt. Mögliche Anwen- dungsgebiete des Systems bestehen sowohl im wissenschaftlichen wie im pädagogischen Bereich.
1 Einleitung
Der Ausgangspunkt für mein Forschungsprojekt im Music Department der University of Hertfordshire (Großbritannien) bestand in der Idee der ko- operierenden französischen Forschungsgruppe Ina-Grm (Institut National Audiovisuel - Groupe de Recherches Musicales), für ihre Software Acousmo- graphe ein Plug-in zur automatischen Erkennung von Klangereignissen zu entwickeln.
Der Acousmographe ist ein Werkzeug zur graphischen Darstellung von Klängen, das zur Zeit im Wesentlichen folgende Möglichkeiten bietet:
- Berechnung und Darstellung von Spektrogrammen mittels FFT,
- manuelles Hinzufügen von graphischen Symbolen zur Klangrepräsen- tation,
- automatische Suche nach signifikanten Änderungen im Hinblick auf Tonhöhe, Intensität und spektrale Dichte.
Sinn und Zweck des Acousmographe ist es, eine anschauliche Darstellung von Musik, die mit konventioneller Notation nicht hinreichend erfassbar ist,
zu ermöglichen. Das betrifft vor allem elektronische Musik, ethnische Musik und zum Teil auch Jazz. Das Ziel meines Projekts ist die Entwicklung eines Verfahrens, das an Hand eines ausgewählten Klangereignisses die gesamte Audiodatei nach klanglich ähnlichen Ereignissen zu durchsuchen vermag. Ein solches Verfahren wäre auch bei einer wahrnehmungsorientierten Organisation von Klängen in Datenbanken sehr nützlich.
Forschungsergebnisse auf diesem Gebiet sind bisher u. a. von Giovanni De Poli und Piero Cosi (Universität Padua)1, Bernhard Feiten (TU Berlin) 2sowie Petri Toiviainen (Universität Jyväskylä)3publiziert worden.
Mein Konzept für ein modulares System baut auf diesen Resultaten auf und bezieht Lösungen aus dem Bereich der automatischen Spracherkennung mit ein. Das System gliedert sich in drei Stufen, die vom Eingangssignal der Reihe nach durchlaufen werden:
1. die Vorverarbeitung des digitalisierten Audiosignals zwecks Datenre- duktion und Modellierung des menschlichen Gehörs,
2. eine topologie-erhaltende Abbildung der Daten vermittels einer selbst- organisierenden Karte (künstliches neuronales Netzwerk),
3. das Auffinden ähnlicher Datensequenzen mit Hilfe eines Hidden Mar- kov Modells.
Die Realisierung dieses Konzepts wird mit dem Program Matlab erfolgen, das eine einheitliche Umgebung für numerische Berechnung und graphische Darstellung sowie eine leichtverständliche Programmiersprache bietet. Für die Bereiche Digitale Signalverarbeitung, Gehörmodellierung (auditory mo- delling) und neuronale Netzwerke sind sogar spezielle
2 Vorverarbeitung
Die Vorverarbeitung stellt eine für den gesamten Prozess entscheidende Stufe dar, da sie bestimmt, welche Merkmale des Klangsignals an das nachfolgende neuronale Netz übermittelt und zur Klassifizierung verwendet werden. Die Aufgabe der Vorverarbeitung besteht darin, den Datenstrom so zu reduzie- ren, dass die für unsere Klangwahrnehmung entscheidenden Parameter be- wahrt und redundante Informationen möglichst weitgehend entfernt werden. Dies geschieht in der Regel durch eine Umwandlung der eindimensionalen Wellenform-Darstellung in eine zweidimensionale Zeit-Frequenz-Repräsen- tation unter Berücksichtigung charakteristischerÜbertragungseigenschaften des menschlichen Gehörs. Dazu gehören vor allem das Konzept der kri- tischen Bandbreite und die nichtlineare Reaktion der Cochlea. Malcolm Slaney hat in seiner Auditory Toolbox4für Matlab verschiedene Gehörmodelle implementiert, die sich als Vorverarbeitung eignen, darunter das im Folgenden kurz beschriebene Modell von Richard F. Lyon5.
Ein linearer Filter modelliert zunächst den Frequenzgang des Außen- und Mittelohrs, bevor eine Kaskade von sich überlappenden Tiefpassfiltern die Ausbreitung des Schallsignals als Wanderwelle in der Cochlea nach- bildet. Jeder Tiefpassfilter entspricht dabei einem kleinen Abschnitt der Cochlea. Dann folgt ein Halbwellen-Gleichrichter (half wave rectifier), der die Erregung der Haarzellen simuliert, und schließlich eine automatische Lautstärkeregelung (automatic gain control) zur Kompression der Dyna- mik. Das Ausgangssignal entspricht der Feuerhäufigkeit der Nervenfasern des jeweiligen Cochlea-Abschnitts und wird in einem Vektor zusammenge- fasst. Dieser repräsentiert einen kurzen zeitlichen Ausschnitt aus einem Klangereignis. Ein komplettes Klangereignis wird—wie in einem Film— durch eine Sequenz von Einzelbildern (frames) dargestellt. Die graphische Darstellung des zeitabhängigen Cochlea-Ausgangssignals—einem Spektro- gramm vergleichbar—wird als Cochleagramm bezeichnet. Es bietet ge- genüber dem durch FFTs gewonnenen Spektrogramm den Vorteil, dass es bei gleicher Frequenzauflösung die zeitliche Struktur des Signals besser be- wahrt.
3 Topologie-erhaltende Abbildung
Da sich musikalische Klangereignisse nicht generell in vorher definierte Klas- sen einteilen lassen, wie es bei den Sprachlauten der Fall ist (Phoneme), bietet sich zur Klassifizierung der vorverarbeiteten Signale in der zweiten Stufe meines Systems ein selbstorganisierendes künstliches neuronales Netz- werk an, dessen Funktion an die der biologischen neuronalen Netze in der Großhirnrinde angelehnt ist. Ein solches Netzwerk stellt die von Teuvo Ko- honen6entwickelte selbstorganisierende Karte (self-organizing map) dar. Sie ist in der Lage, höherdimensionale Eingangssignale unter Berücksichti- gung vorhandener Ordnungsrelationen auf niederdimensionale Ausgangssig- nale abzubilden. Diese topologie-erhaltende Abbildung erfolgt jeweils ent- lang der Dimensionen mit der größten Varianz. Die Ausgangssignale lassen sich durch Punkte auf einer gewöhnlich zwei- oder dreidimensionalen topo- logischen Karte beschreiben, deren Abstände von der vektoriellen Differenz der Eingangssignale abhängen. Die topologische Karte stellt also einÄhn- lichkeitsdiagramm dar. Die abzubildenden Eingangssignale sind in diesem Fall die vorverarbeiteten Vektoren aus der ersten Stufe, daher bildet jedes Klangereignis eine Sequenz von Punkten auf der topologischen Karte, die sich graphisch als Bahnkurve darstellen lässt, etwa wie in Abb. 1.
Wie alle neuronalen Netze benötigt auch die selbstorganisierende Kar- te eine Lernphase, in der sich die Gewichtsvektoren der einzelnen Units in geordneter Weise an die Verteilung der Eingabevektoren anpassen. Die Trai- ningsdaten, die dem Netzwerk im Verlauf der Lernphase bis zu 100.000mal präsentiert werden, sollten dabei ein möglichst breites Spektrum der später verwendeten Signale abdecken.
Abbildung 1: Bahnkurve auf einer zweidimensionalen topologischen Karte
Abbildung in dieser Leseprobe nicht enthalten
Eine sehr wichtige Eigenschaft der selbstorganisierenden Karte im Zu- sammenhang mit der Klassifizierung von Klangereignissen ist ihre Fähigkeit zur Generalisierung, also zur Einordnung von bisher unbekannten Signa- len auf der Grundlage der gelernten Topologie. Das Ziel ist es, diese Ein- ordnung möglichst gut mit unserer Klangvorstellung inÜbereinstimmung zu bringen. John Grey hat 1975 an der Stanford University Experimente zur Ähnlichkeitsbeurteilung der Klangfarben verschiedener Musikinstrumen- te durchgeführt und die Ergebnisse u. a. durch multidimensionale Skalierung (multidimensional scaling) in zwei, drei und vier Dimensionen ausgewertet 7. Dabei erwies sich die dreidimensionale Darstellung für den Klangfar- benraum am geeignetsten. Grey konnte den Dimensionen in diesem Fall sogar konkrete physikalische Klangeigenschaften zuordnen (spektrale Ener- gieverteilung, Anteil von hochfrequenter Energie mit geringer Amplitude im Einschwingvorgang, spektrale Fluktuation/Hüllkurvensynchronität der Obertöne). Daher scheint eine dreidimensionale topologische Karte für die Klassifizierung von Klängen besser geeignet zu sein als eine zweidimensio- nale. De Poli und Tonella gelang es 1993, Greys Ergebnisse mit einem neuronalen Netz von 8 × 8 × 8 = 512 Units weitgehend zu reproduzieren8.
4 Hidden Markov Modell
Aufgabe der dritten Stufe meines Klangerkennungssystems ist es, zu ei- ner ausgewählten Sequenz von Punkten auf der topologischen Karte (einem Klangereignis) ähnliche Sequenzen innerhalb der gesamten Abfolge (Audio- datei) zu finden. Dies lässt sich mit einem sogenannten Hidden Markov Modell realisieren, einem stochastischen Modell, das im Bereich der automatischen Spracherkennung häufig zur Klassifizierung von Phonem- und Wortfolgen eingesetzt wird. Grundlage für das Hidden Markov Modell ist die Markov-Kette, ein stochastischer Automat, der ausgehend vom aktuel- len Zustand mit einer gewissen Wahrscheinlichkeit in einen anderen Zustand übergeht (vgl. Abb. 2). Dabei hängt dieÜbergangswahrscheinlichkeit im- mer nur vom aktuellen Zustand und nicht von vorhergehenden Zuständen ab (Markov-Bedingung).
Abbildung 2: Links-Rechts-Modell einer Markov-Kette mit Zuständen q1 bis q5 und Übergangswahrscheinlichkeiten aij
Abbildung in dieser Leseprobe nicht enthalten
Beim Hidden Markov Modell kommt noch eine weitere Ebene—die Beobachtungssequenz—hinzu, die mit der darunterliegenden, für den Beobachter verborgenen Markov-Kette wiederum über eine Wahrscheinlichkeitsfunktion (Ausgabewahrscheinlichkeit) verknüpft ist. Es handelt sich daher um einen doppelt stochastischen Prozess9.
Ein HMM wird im Wesentlichen durch drei Größen charakterisiert: die Wahrscheinlichkeitsverteilung für den Anfangszustand, die Wahrscheinlich- keitsverteilung für dieÜbergänge zwischen den einzelnen Zuständen und die Wahrscheinlichkeitsverteilung für die Elemente der Beobachtungssequenz. In meinem System entspricht die Beobachtungssequenz einer Abfolge von Punkten auf der topologischen Karte. Um ähnliche Sequenzen mit einem HMM erkennen zu können, muss man zunächst durch Variation der Para- meter ein Modell herstellen, das optimal zu der gegebenen Beobachtungs- sequenz passt. Dies geschieht—ähnlich wie bei neuronalen Netzen—durch eine Trainingsphase anhand der Beobachtungssequenz. Ein geeignetes itera- tives Optimierungsverfahren ist die Baum-Welch-Methode. Im Unterschied zu Spracherkennungssystemen, die mit festen Kategorien arbeiten, muss hier für jedes gewünschte Klangereignis ein neues HMM durch iterative Optimie- rung erstellt werden.
Abbildung in dieser Leseprobe nicht enthalten
5 Geplanter Ablauf des Forschungsprojekts
Bei der Umsetzung des Konzepts werde ich mit der Implementierung der ers- ten beiden Stufen beginnen, um verschiedene Kombinationen von Gehörmo- dellen und topologischen Karten mit Hilfe von ausgewählten Klängen zu erproben. Ausgehend von den in der Literatur beschriebenen Experimen- ten wird die Klangauswahl zunächst auf geringe Varianz beschränkt sein und dann langsam ausgeweitet werden, um Parameter wie Tonhöhe und Tondauer mit in die Ähnlichkeitsbewertung einzubeziehen. Eine Beurtei- lung der Ergebnisse kann durch Vergleiche mit Ähnlichkeitsabschätzungen aus einer entsprechend gestalteten Versuchsreihe, etwa mit Musikstudenten, erfolgen.
Literatur
1 Piero Cosi, Giovanni De Poli, and Giampaolo Lauzzana. Auditory model- ling and self-organizing neural networks for timbre classification. Journal of New Music Research, 23(1):71-98, 1994.
2 Bernhard Feiten and Stefan Günzel. Automatic indexing of a sound database using self-organizing neural nets. Computer Music Journal, 18(3):53-65, 1994.
3 Petri Toiviainen, Mauri Kaipainen, and Jukka Louhivuori. Musical tim- bre: Similarity ratings correlate with computational feature space distances. Journal of New Music Research, 24(3):282-298, 1995.
4 Malcolm Slaney and Richard F. Lyon. On the importance of time: A temporal representation of sound. In Martin Cooke, Steve Beet, and Malcolm Crawford, editors, Visual Representations of Speech Signals, pages 95-116. John Wiley & Sons, Chichester, UK, 1993.
5 Malcolm Slaney. Auditory Toolbox: Version 2. Technical Report 1998- 010, Interval Research Corporation, 1998.
6 Teuvo Kohonen. Self-Organisation and Associative Memory. Springer, Berlin, third edition, 1989.
7 John M. Grey. Multidimensional perceptual scaling of musical timbres. Journal of the Acoustical Society of America, 61(5):1270-1277, 1977.8Giovanni De Poli and Paolo Tonella. Self-organizing neural network and Grey’s timbre space. In Proc. of the International Computer Music Conference ICMC ’93, pages 260-263, Tokyo, 1993.
Häufig gestellte Fragen
Worum geht es in diesem Dokument "Computerbasierte Erkennung von Klangereignissen"?
Dieses Dokument skizziert ein Konzept für ein computerbasiertes System zur Erkennung ähnlicher Klangereignisse. Es ist als Plug-in für den Acousmographe, ein Programm zur grafischen Darstellung und Analyse von Klängen, gedacht. Das Ziel ist es, anhand eines ausgewählten Klangereignisses die gesamte Audiodatei nach klanglich ähnlichen Ereignissen zu durchsuchen.
Wie ist das System zur Klangerkennung aufgebaut?
Das System gliedert sich in drei Stufen:
- Vorverarbeitung des digitalisierten Audiosignals zur Datenreduktion und Modellierung des menschlichen Gehörs.
- Topologie-erhaltende Abbildung der Daten mithilfe einer selbstorganisierenden Karte (künstliches neuronales Netzwerk).
- Auffinden ähnlicher Datensequenzen mit einem Hidden Markov Modell.
Was macht die Vorverarbeitung?
Die Vorverarbeitung reduziert den Datenstrom so, dass die für die Klangwahrnehmung entscheidenden Parameter bewahrt und redundante Informationen entfernt werden. Dies geschieht durch die Umwandlung der eindimensionalen Wellenform in eine zweidimensionale Zeit-Frequenz-Repräsentation unter Berücksichtigung der Eigenschaften des menschlichen Gehörs.
Was ist eine selbstorganisierende Karte und wofür wird sie verwendet?
Eine selbstorganisierende Karte ist ein künstliches neuronales Netzwerk, das höherdimensionale Eingangssignale unter Berücksichtigung vorhandener Ordnungsrelationen auf niederdimensionale Ausgangssignale abbildet. Im Kontext dieses Systems wird sie verwendet, um die vorverarbeiteten Signale zu klassifizieren.
Was ist ein Hidden Markov Modell und wie wird es eingesetzt?
Ein Hidden Markov Modell (HMM) ist ein stochastisches Modell, das zur Erkennung ähnlicher Sequenzen von Punkten auf der topologischen Karte verwendet wird. Es wird trainiert, um ein Modell zu erstellen, das optimal zu einer gegebenen Beobachtungssequenz (einem Klangereignis) passt.
Welche Software wird für die Realisierung des Systems verwendet?
Das System wird mit Matlab realisiert, das eine einheitliche Umgebung für numerische Berechnung und grafische Darstellung bietet.
Welche Anwendungsmöglichkeiten hat das System?
Mögliche Anwendungsgebiete des Systems sind sowohl im wissenschaftlichen als auch im pädagogischen Bereich denkbar. Es kann auch bei einer wahrnehmungsorientierten Organisation von Klängen in Datenbanken sehr nützlich sein.
Welche Forschungsergebnisse fließen in dieses Projekt ein?
Das Konzept baut auf Forschungsergebnissen von Giovanni De Poli, Piero Cosi, Bernhard Feiten und Petri Toiviainen auf und bezieht Lösungen aus dem Bereich der automatischen Spracherkennung mit ein.
Was ist ein Cochleagramm?
Das Cochleagramm ist eine graphische Darstellung des zeitabhängigen Cochlea-Ausgangssignals—einem Spektrogramm vergleichbar. Es bietet gegenüber dem durch FFTs gewonnenen Spektrogramm den Vorteil, dass es bei gleicher Frequenzauflösung die zeitliche Struktur des Signals besser bewahrt.
- Quote paper
- Christian Spevak (Author), 1999, Computerbasierte Erkennung von Klangereignissen, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/104870