Current Page:	Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m05 » Learning Units » Unit ID: 03_22
Last Modified:	Tuesday, 2015-05-05 - 08:08:58

Tools:	Validate — Preview XML Preview HTML Preview PDF
Alternative:	Printable HTML

Title:	Sprachinformationsretrieval
Abstract:	Konventionelle Informationsretrieval Systeme basieren ausschließlich auf Textsuche. Es besteht nun der Wunsch, auch gesprochenen Text, der zum Beispiel in Videos und Audiodateien gespeichert ist, für Informationsretrievalsysteme zugänglich zu machen. Diese Lerneinheit gibt einen Überblick über die verschiedenen Ansätze, Sprache automatisch in geschriebenen Text zu konvertieren.

Status:	final	Version:	2004-09-23
History:	2004-09-23 (thomas Migl): Abb. explanation korrigiert 2004-09-16 (Thomas migl): abb. hinzugefügt (+Quellen) 2004-09-13 (Thomas Migl). Eine PC Abb. hinzugefügt 2004-09-03 (Thomas Migl): finalisiert 2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion. 2004-03-12 (Robert Fuchs): Fixed bugs in content tagging. 2004-03-10 (Thomas Migl): abstract, LOD1 added 2004-03-05 (Robert Fuchs): Imported and tagged content from "m5-LU22-Sprachinformationsretrieval.doc".

Author 1:	Thomas Migl	E-Mail:	migl@ims.tuwien.ac.at
Author 2:	(empty)	E-Mail:	(empty)
Author 3:	(empty)	E-Mail:	(empty)
Author 4:	(empty)	E-Mail:	(empty)
Author 5:	(empty)	E-Mail:	(empty)
Organization:	Organisation: Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

Motivation Sprachinformationsretrieval foot1999, 3

1

auto

Konventionelle IRS basieren auf Textsuche
Motivation Sprachinformationsretrieval - gesprochenen Text für Informationsretrieval zugänglich machen
Sprache muß automatisch in Schrift konvertiert werden
Systeme heißen ASR-Systeme -Automatic Speech Recognition

2

auto

Konventionelle Informationsretrieval Systeme basieren ausschließlich auf Textsuche. Als Anfrage gibt der User ein oder mehrere Schlüsselwörter ein, Suchmaschinen wie Lycos und Altavista durchsuchen Textdokumente auf diese Wörter. Je mehr Schlüsselwörter in einem Dokument wieder gefunden werden, als desto passender zu einer Abfrage wird es gewertet. Es besteht nun der Wunsch, auch gesprochenen Text, der zum Beispiel in Videos und Audiodateien gespeichert ist, für Informationsretrievalsysteme zugänglich zu machen. Dazu muss erst Gesprochenes in geschriebenen Text umgewandelt werden. In dieser Form repräsentierte Sprachdateien können dann in einem Retrievalsystem wie konventionelle Schriftdokumente gehandhabt werden. Systeme, die Sprache in Schrift konvertieren, werden als Automatic Speech Recognition (ASR), also automatische Spracherkennung, bezeichnet.

Probleme bei ASR gouj2001

1

Spracheinheiten

Für alle ASR muss Sprache zuerst in Spracheinheiten segmentiert werden
Spracheinheiten können sein - Phoneme, Silben(gruppen), Laute, Wörter, etc

Probleme bei der Segmentierung und Interpretation

Sprache ist fließend
Gleiche sprachliche Einheiten werden zu verschiedenen Zeitpunkten verschieden ausgesprochen
Gleiche sprachliche Einheiten werden in verschiedenen Zusammenhängen verschieden ausgesprochen

2

Spracheinheiten

Um Sprache überhaupt verstehen zu können, muss sie erst in Spracheinheiten aufgeteilt werden.

Spracheinheiten

Spracheinheiten sind Grundbausteine jeder Sprache. So sind zum Beispiel Wörter und Sätze Spracheinheiten. Kleinere Einheiten sind die Laute (Selbstlaute, Mitlaute). Ein Phonem wiederum ist die kleinste bedeutungsunterscheidende Einheit einer Sprache.

Probleme bei der Segmentierung und Interpretation

Die Probleme der ASR ergeben sich bei der Segmentierung und Interpretation dieser Spracheinheiten

Menschliche Sprache ist etwas fließendes, eine Spracheinheit geht oft kontinuierlich in die nächste über. Auch sind Spracheinheiten, zeitlich unterschiedlich lang. Eine absolut korrekte automatische Segmentierung einer beliebigen Rede in kleine Spracheinheiten ist dementsprechend schwer zu realisieren.
Phoneme und andere Spracheinheiten werden von verschiedenen Sprechern verschieden ausgesprochen. Auch ein und derselbe Sprecher wird einen Satz bei einer Wiederholung immer wieder etwas anders aussprechen. Gleiche Phoneme werden dabei betreffs Dauer, Tonhöhe, Lautstärke und Klangeigenschaften immer etwas variieren.
Wie Phoneme oder Laute genau ausgesprochen werden, hängt auch davon ab, an welcher Stelle sie in einem Wort stehen. So sind zum Beispiel die Klangeigenschaften eines Selbstlautes stark von den ihn umgebenden Mitlauten beeinflusst.

Prinzipielle Funktionsweise gouj2001,280

1

Die zwei Phasen eines ASR

Trainingsphase
- Mehrere Sprecher lesen selben Text
- Sprache in Spracheinheiten zerlegt
- Für jede Spracheinheit Spektogramm berechnet
- aus Spektogramm mehrere Audiofeatures extrahiert und zu einem Featurevektor zusammengefasst
- Da verschiedene Sprecher - jede Spracheinheit hat verschiedene Featurevektoren
Spracherkennungsphase
- Beliebige Rede in Spracheinheiten zerlegt
- es werden Features extrahiert und zu Featurevektor zusammen gefasst
- Featurevektor mit Featurvektoren aus Trainingsphase verglichen

Hidden Markov Model

Features sind statistsch
HMM wird zur statistischen Repräsentation der Spracheinheiten verwendet
Bei Spracherkennung werden die HMMs miteinander verglichen
HMM bringt die besten Ergebnisse zur Spracherkennung

Arten von ASR Systeme

Erkennung von Schlüsselwörter
Large Vokabulary Spracherkennung
Subword Indizierung

2

Die zwei Phasen eines ASR

Trainingsphase

In der Trainingsphase müssen mehrere Sprecher einem vom ASR System vorgegebenen Text lesen. Die Aufnahme der Sprachprobe wird in mehr oder weniger kleinere Einheiten zerlegt. Die kleinstmöglichen sprachlichen Einheiten sind dabei die Phoneme und Laute, aber es können auch größere Segmentierungseinheiten wie Wörter oder Sätze verwendet werden. Für jede sprachliche Einheit werden aus dessen Spektogramm verschiedene Features extrahiert und zu einem Featurevektor zusammengefasst. Da, wie vorher besprochen, gleicher Text niemals gleich ausgesprochen wird, müssen für ein und dieselbe Spracheinheit mehrer Merkmalsvektoren abgespeichert werden. Ziel der Trainingsphase ist es, den Spracheinheiten möglichst viele mögliche Ausspracheformen zuzuordnen. Nur so ist es möglich, dass dann in der Spracherkennungsphase auch die Sprache von unbekannten Personen verstanden werden kann.

Spracherkennungsphase

Während der Spracherkennung wird eine beliebige Rede in entsprechende Einheiten zerlegt und daraus Featurevektoren extrahiert. Jeder diese Featurevektoren wird mit den während der Trainingsphase generierten Vektoren verglichen. Jene Einheit, dessen Vektor dem Merkmalsvektor aus der Rede am ähnlichsten ist, wird als die gesuchte sprachliche Einheit erachtet.

Hidden Markov Model foot1999,3

Betrachtet man die grundlegenden Schwierigkeiten, mit denen jede ASR konfrontiert ist, lässt sich leicht ableiten, dass eine effektive Spracherkennung auf einem statistischen Prozess basieren muss. Klangsequenzen, die durch Segmentierung einer vorerst unbekannten Rede entstanden sind, können nur an Hand von Wahrscheinlichkeiten speziellen Phonemfolgen oder Wörtern zugeordnet werden. Die meisten ASR verwenden dazu das Hidden Markov Model. Ein HMM ist dabei eine statistische Repräsentation einer Spracheinheit. Es werden sowohl die in der Trainingsphase entstandenen wie die zuerkennenden Spracheinheiten jeweils in einem eigenem HMM kodiert. Mit Hilfe der HMM Darstellung können heutige Algorithmen zusammengehörige Klangsequenzen mit einer brauchbaren Genauigkeit erkennen.

Arten von ASR Systeme

Je nach Anforderung gibt es verschiedene Funktionsweisen von ASR.

Erkennung von Schlüsselwörter- Audiodateien sollen mit Hilfe von Schlüsselwörter indiziert werden
Large Vocabulary Spracherkennung – Sprache soll vollständig transkribiert werden
Subword Indizierung – Sprache wird nicht in Text umgesetzt, sondern es werden die einzelnen sprachlichen Einheiten (=Subwords) ohne aufwändige Worterkennung indiziert

Erkennung von Schlüsselwörter

1

auto

Motivation - Indizierung von Audiodateien
Sprache nur auf bestimmte Schlüsselwörter untersucht

Switchboard

Switchboard wird verwendet zur Evaluierung neu entwickelter Algorithmen
Switchboard ist ein Datenbestand von Aufnahmen alltäglicher Telefongesprächen
Jedes Telefonat hat ein spezielles Hauptthema (Wetter, Haustiere, etc.)
Beste Algorithmen von heute erkennen 80% der Hauptthemen

2

auto

Nicht eine vollständige Transkription des sprachlichen Inhaltes einer Audiodatei ist hier das Ziel, sondern die Suche auf bestimmte Schlüsselwörter. Das Ergebnis soll zur effektiven Indizierung von Audiodateien dienen.

Switchboard

Um die verschiedenen Systeme zur Schlüsselworterkennung zu evaluieren, wird sehr gerne der Datencorpus von Switchboard verwendet. Der Corpus von Switchboard beinhaltet Aufnahmen alltäglicher Telefongespräche. Jedes Telefonat hat ein bestimmtes Hauptthema: Haustiere, Wetter, etc.Die verschiedenen Forschergruppen versuchen nun, mit ihrem Schlüsselwortsystem das jeweilige Hauptthema eines dieser Telefonate zu erkennen. Sie erhalten somit ein Maß für die Qualität ihrer Algorithmen. Es wurden Algorithmen entwickelt, die von 10 Telefonaten 8 das richtige Hauptthema zuordneten.

Large-Vocabulary Spracherkennung

1

auto

Inhalt einer Rede soll vollständig in Schrift konvertiert werden

Phonetisches Wörterbuch

Für jedes Wort müßte eigenes HMM generiert werden (bis zu 100.000 !)
Phonetisches Wörterbuch - jedes Wort auch als Lautfolge eingetragen
Reduktion der HMMs mit Hilfe phonetischem Wörterbuch
- HMMs repräsentieren kleinere Einheiten als Wörter (Phoneme, Laute)
- Dadurch Reduktion auf einige hundert HMMs
erkannte Laute zu Lautfolgen zusammen gefasst
Phonetisches Wörterbuch liefert richtige Wörter

Statistisches Sprachmodell

Beschreibt Wahrscheinlichkeit für bestimmte Wortfolgen
Beispiel - im Englischen ist die Wortfolge „of the“ bedeutend wahrscheinlicher als „oaf the“ (oaf = Flegel)
Für verschiedene Themen müssen verschiedene statistische Sprachmodelle generiert werden

Nachteile der Large Vocabulary ASR

Wenn ein Wort in dem Phonetischen Wörterbuch nicht enthalten, keine Spracherkennung möglich
Es muss immer ein geeignetes Sprachmodell vorhanden sein
Large-vocabulary ASR Systeme benötigen sehr hohe Rechnerleistung und Speicherresourcen

2

auto

Bei dieser Spracherkennungstechnik geht es darum, dass der vollständige Inhalt einer Rede in grammatikalisch richtige Schrift übertragen wird. Diese Systeme müssen ein alle Wörter einer Sprache umfassendes Wörterbuch enthalten inklusive deren verschiedenen Aussprachemöglichkeiten (in Form von HMMs). Ein solches Wörterbuch kann bis an die hunderttausend Wörter umfassen.

Phonetisches Wörterbuch

Für jedes Wort aus dem Wörterbuch müsste man in der Trainingsphase ein eigenes HMM generieren. Um diesen immensen Aufwand zu umgehen, bedient man sich oft der Erstellung von HMMs, die jeweils kleinere sprachliche Einheiten als Wörter repräsentieren. Dadurch reduziert sich die Anzahl der erforderlichen HMMs von Hunderttausend auf einige Hunderte. Diese Wortteile können zum Beispiel Phoneme oder Laute sein.

Phonetisches Wörterbuch

Das Wörterbuch eines ASR-Systems beinhaltet neben der richtigen Schreibweise auch die Lautschrift jedes Wortes (wie in den meisten Dictionaries üblich). Ein ASR für englische Sprache liefert dann zum Beispiel die Laut-Sequenz „R AY T“. Diese Lautfolge wird mit den Wörterbucheinträgen verglichen: Ergebnis ist das Wort „right“.

Statistisches Sprachmodell

Ein large-vocabulary ASR benötigt zusätzlich ein statistisches Sprachmodell. Darin wird beschrieben, wie hoch die Wahrscheinlichkeit bestimmter Wortfolgen in einer Sprache ist.Um ein brauchbares statistisches Sprachmodell aufbauen zu können, muss erst eine hohe Anzahl an Textbeispielen aus einem speziellen Gebiet, wie zum Beispiel Texte aus Sportnachrichten, analysiert werden. Dieses Sprachmodell ist dann allerdings nur für dieses spezielle Themengebiet relevant. So muss für jeden möglichen Themenbereich ein eigenes statistisches Sprachmodell ermittelt werden.

Statistisches Sprachmodell

Im Englischen ist die Wortfolge „of the“ bedeutend wahrscheinlicher als „oaf the“ (oaf = Flegel).

Nachteile der Large Vocabulary ASR

Wenn ein Wort in dem Phonetischen Wörterbuch nicht enthalten ist, wird es von der Spracherkennung ignoriert.
Es muss immer ein geeignetes Sprachmodell vorhanden sein. Für Reden, deren Inhalt keiner Gruppe von Textbeispielen zuordenbar ist, funktioniert die automatische Spracherkennung nicht mehr.
Large-vocabulary ASR Systeme benötigen sehr hohe Rechnerleistung und Speicherresourcen, und benötigen eine dementsprechende hohe Rechenzeit

Für Anwendungen wie das Diktieren von Text, der sich eindeutig in ein Themengebiet einordnen lässt, sind diese Nachteile heute bereits ohne besondere Belange. Heutige Systeme können in diesen Fällen Sprache in guter Qualität in Echtzeit transkribieren.

Sub-Word Indizierung

1

Sub-Word Indizierung

Zur Repräsentation in einem IRS ist Large Vocabulary ASR nicht geeignet
Alternative: Sub-Word Indexing
- Repräsentation einer Audiodatei nicht durch ganze Wörter, sondern Subword-Sequenzen
- Soll ohne Wörterbuch und ohne statistischem Sprachmodell funktionieren
- Welche Subwords dafür am besten geeignet ist, ist Gegenstand heutiger Forschung

Phonetisches Gitter PC foot1999

Phonetisches Gitter PDA_Phone foot1999

2

Sub-Word Indizierung

Bei Retrieval Anwendungen muss für eine große Anzahl an Audiodateien schnell eine für diverse Abfragen geeignete Repräsentation errechnet werden. In diesem Fall ist die benötigte Rechenzeit eines Large- Vocabulary ASR unakzeptabel. Zurzeit gibt es viele Forschungsprojekte, die eine Alternative zur Large Vocavulary ASR suchen. Eine Erfolg versprechende Alternative ist die Subword Indizierung. Zur Repräsentation einer Audiodatei wird sie nicht auf ganze Wörter, sondern auf kleinere sprachliche Einheiten (=Subwords) untersucht. So wird kein Wörterbuch und kein Sprachmodell benötigt. Die Repräsentation enthält keine Wörter, sondern Subword- Sequenzen. Welche Subwords die dafür am meist geeigneten sind, ist Gegenstand heutiger Forschung. Es wird die Effektivität von Phonemen, Lauten und phonetischen Cluster für die Indizierung untersucht.

Phonetischer Cluster

Ein phonetischer Cluster ist eine spezielle Folge von Lauten. Gegenstand einer aktuellen Untersuchung einer Forschergruppe an der Schweizer ETH ist zum Beispiel der phonetische Cluster Selbstlaut-Mitlaut-Selbstlaut.

Heutiger Stand der Forschung

Eine eindeutige Präferenz für einen der Subword Typen gibt es heute noch nicht. Große Schwierigkeiten haben diese Systeme bei der Genauigkeit. Durch das Fehlen eines Wörterbuches und einem sprachlichen Modells können die erkannten Subwords schwer zugeordnet werden. Weiters hat man bei den Forschungen herausgefunden, dass je kleiner die sprachliche Einheiten sind, umso ungenauer wird das System.

Phonetische Gitter

Indizierung durch Subwords ist auf Grund des Fehlens eines Sprachmodells dementsprechend fehleranfällig. So muss eine Repräsentationsform der Subwords gefunden werden, die die durch das ASR verursachte Fehler kompensiert. Ein Bespiel dafür ist die Repräsentation der Subwords in einem Gitter. Das Prinzip baut darauf auf, dass, da kleinere Einheiten als Wörter gewählt werden, es nur wenige Möglichkeiten gibt fortzuschreiten, da nur bestimmte Laute und Silben zusammenpassen. Zur Repräsentation einer Audiodatei werden die Subwords in einer Gitterstruktur repräsentiert. Ein Gitter ist eine kompakte Repräsentation von “multiple best hypothesis“, Hypothesen, die von einem Laut- oder Wörtererkennungssystem generiert wurden. Mit Hilfe so eines Gitters kann in einem einstündigen Tondokument eine zu einer Abfrage gehörige spezielle Lautsequenz innerhalb von 3 Sekunden gefunden werden.

Phonetisches Gitter PC foot1999

Die Abbildung zeit ein phonetisches Gitter .Das gesuchte Wort ist dabei das englische Wort "CAT".

Phonetisches Gitter PDA_Phone foot1999

Die Abbildung zeit ein phonetisches Gitter .Das gesuchte Wort ist dabei das englische Wort "CAT".

Beispiel für ein Sprachretrieval System eines Nachrichtensenders

1

Architektur eines Sprachinformationsretrievalsystem einer Nachrichtensendung PC makh2000

Architektur eines Sprachinformationsretrievalsystem einer Nachrichtensendung PDA_Phone makh2000

2

Architektur eines Sprachinformationsretrievalsystem einer Nachrichtensendung PC makh2000

Erklärung der Abbildung Architektur eines Sprachinformationsretrievalsystem einer Nachrichtensendung

Die Grafik zeigt den Prinzipiellen Aufbaus eines Retrievalsystems für einen Nachrichtensender. Der User soll über seinen Internetbrowser zugriff auf die einzelnen Berichte als Tondokument, auf Stories in Textform, Informationen über den Sprecher etc haben

Audiosignal am Eingang – Einerseits wird das gesamte Audiosignal (z.B. eine komplette Nachrichtensendung) in komprimierter Form auf einen Audioserver gestellt, andererseits wird es an das Indizierungssystem weitergeleitet.
Sprechersegmentierung – Hier wird das Tondokument in Segmente unterteilt, und zwar in Segmente, die Sprache beinhalten, und Segmente ohne Sprache. Schwierigkeiten treten auf, da gerade bei Nachrichtensendungen der Stimme des Sprechers oft starke Hintergrundsgeräusche überlagert sind.
Spracherkennung - hier wird Gesprochenes in Schrift transkribiert
Sprecherclustering – Hier wird untersucht, welche Sprachsegmente vom selben Sprecher vorgetragen werden und dementsprechend indiziert
Sprecheridentifizierung - Auf Grund verschiedener Sprachstile und –gewohnheiten der unterschiedlichen Sprecher, kann hier automatisch erkannt werden, um welchen Sprecher es sich handelt. Durch diese Indizierung können persönliche Informationen über den Sprecher hinzugefügt werden.
Name spotting – Es werden die Sprachsegmente auf Namen von Personen, Städte, Länder, Plätze et c untersucht.
Klassifizierung der Hauptthemen – Die Sprachdaten werden auf verschiedene Schlüsselwörter hin untersucht. Je nach Häufigkeit des Auftreten spezieller Wörter werden die Berichte einer Themengruppe zugeordnet
Segmentierung in Stories – Hier werden die Berichte als Stories als geschriebenes Dokumente repräsentiert.

Architektur eines Sprachinformationsretrievalsystem einer Nachrichtensendung PDA_Phone makh2000

Erklärung der Abbildung Architektur eines Sprachinformationsretrievalsystem einer Nachrichtensendung

Die Grafik zeigt den Prinzipiellen Aufbaus eines Retrievalsystems für einen Nachrichtensender. Der User soll über seinen Internetbrowser zugriff auf die einzelnen Berichte als Tondokument, auf Stories in Textform, Informationen über den Sprecher etc haben

Audiosignal am Eingang – Einerseits wird das gesamte Audiosignal (z.B. eine komplette Nachrichtensendung) in komprimierter Form auf einen Audioserver gestellt, andererseits wird es an das Indizierungssystem weitergeleitet.
Sprechersegmentierung – Hier wird das Tondokument in Segmente unterteilt, und zwar in Segmente, die Sprache beinhalten, und Segmente ohne Sprache. Schwierigkeiten treten auf, da gerade bei Nachrichtensendungen der Stimme des Sprechers oft starke Hintergrundsgeräusche überlagert sind.
Spracherkennung - hier wird Gesprochenes in Schrift transkribiert
Sprecherclustering – Hier wird untersucht, welche Sprachsegmente vom selben Sprecher vorgetragen werden und dementsprechend indiziert
Sprecheridentifizierung - Auf Grund verschiedener Sprachstile und –gewohnheiten der unterschiedlichen Sprecher, kann hier automatisch erkannt werden, um welchen Sprecher es sich handelt. Durch diese Indizierung können persönliche Informationen über den Sprecher hinzugefügt werden.
Name spotting – Es werden die Sprachsegmente auf Namen von Personen, Städte, Länder, Plätze et c untersucht.
Klassifizierung der Hauptthemen – Die Sprachdaten werden auf verschiedene Schlüsselwörter hin untersucht. Je nach Häufigkeit des Auftreten spezieller Wörter werden die Berichte einer Themengruppe zugeordnet
Segmentierung in Stories – Hier werden die Berichte als Stories als geschriebenes Dokumente repräsentiert.

(empty)