Current Page:	Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m05 » Learning Units » Unit ID: 03_24
Last Modified:	Tuesday, 2015-05-05 - 08:08:58

Tools:	Validate — Preview XML Preview HTML Preview PDF
Alternative:	Printable HTML

Title:	MPEG-7 Audio
Abstract:	Um Audiodaten für ein Retrieval System zugänglich zu machen, ist es wie bei allen multimedialen Daten notwendig, neben den eigentlichen Audiodaten geeignete Meta-Daten abzulegen. Die ISO hat sich bei der Erarbeitung es MPEG-7 Standards die Aufgabe gesetzt, Repräsentationen multimedialer und somit auch Audiodaten zu standardisieren.

Status:	Final	Version:	2004-09-23
History:	2004-09-23 (thomas migl): abb. explanations korrigiert 2004-09-16 (Thomas migl): fehlende Abb. hinzugefügt 2004-09-13 (Thomas Migl): Abb hinzugefügt 2004-09-09 (Thomas Migl): in greybox importiert, eine final Abb hineingestellt 2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion. 2004-03-12 (Robert Fuchs): Fixed bugs in content tagging. 2004-03-11 (Thomas Migl): LOD1, abstract added 2004-03-05 (Robert Fuchs): Imported and tagged content from "m5-LU24-MPEG7 Audio.doc".

Author 1:	Thomas Migl	E-Mail:	migl@ims.tuwien.ac.at
Author 2:	(empty)	E-Mail:	(empty)
Author 3:	(empty)	E-Mail:	(empty)
Author 4:	(empty)	E-Mail:	(empty)
Author 5:	(empty)	E-Mail:	(empty)
Organization:	Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

Struktur des MPEG-7 Standards quac2001

1

Motivation MPEG-7

MPEG-7 definiert Metadaten zur Repräsentation multimedialer Daten

Deskriptoren

Jeder Deskriptor beschreibt spezielle Eigenschaft
Eigenschaften entweder für kurzen Zeitabschnitt oder für gesamte Datei
2 Arten von MPEG-7 Deskriptoren
- Low-level - für beliebiges Audio anwendbar
- High level - bezieht sich auf Inhalt der Audiodatei

Deskriptoren Schema (DS) und Description Definition Language (DDL)

Deskriptoren Schema
- Beschreibt Zusammenhänge zwischen verschiedener Deskriptoren
- Schema wird als Baumstruktur dargestellt
DDL
- Zur Definition einer DS
- XML basiert

2

Motivation MPEG-7

Um Audiodaten für ein Retrieval System zugänglich zu machen, ist es wie bei allen multimedialen Daten notwendig, neben den eigentlichen Audiodaten geeignete Meta-Daten abzulegen. Diese Metadaten sollen in der Lage sein, das Audiomaterial in einer Weise zu repräsentieren, sodass es bei einer entsprechenden Abfrage anhand seiner Metadaten auch gefunden wird. (Beispiele siehe Audioretrieval Überblick ). Die ISO hat sich bei der Erarbeitung es MPEG-7 Standards die Aufgabe gesetzt, Repräsentationen multimedialer und somit auch Audiodaten zu standardisieren. Auch für MPEG-7 /Audio werden Deskriptoren und Deskriptoren Schemeta definiert.

Deskriptoren

Jeder Deskriptor beschreibt eine spezielle Eigenschaft des Audiosignals (zum Beispiel: Helligkeit des Signals). Ein Deskriptor kann diese Eigenschaft in 2 Formen repräsentieren:

Deskriptor beschreibt entsprechende Eigenschaft des ganzen Signals, bzw. in einem zeitlichen Ausschnitt
- Beschreibung eines Audiosignals mit einer Gesamtlänge von 10 Sekunden. Deskriptor kann entweder die Helligkeit des gesamten Audiosignals (10 Sekunden) beschreiben, oder Helligkeit in einem speziellen Zeitabschnitt (zum Beispiel1,5 Sekunde bis 2 Sekunden).
Deskriptor beschreibt bestimmte Eigenschaft in periodischen Abständen
- Deskriptor beschreibt die Klanghelligkeitswerte des Signals alle 2 Sekunden.

Unterschiedlicher Level derDeskriptor

Im Standard wird zwischen Low-level und high-level Deskriptoren unterschieden.

Low-level Deskriptor

Die low-level Deskriptoren können auf jedes beliebige Audiosignal angewandt werden, ganz unabhängig von dessen Inhalt.

High-level Deskriptor

High-level Deskriptoren sind entwickelt worden, um spezielle Audiosignale beschreiben zu können. So umfasst der MPEG-7 Standard Deskriptoren, die speziell zur effektiven Beschreibung von Sprache definiert worden sind. Andere beschreiben ausschließlich Musik, andere wieder Klänge etc.

Deskriptoren Schema und Description Definition Language

Deskriptoren Schemata beschreibt eine Gruppe von Deskriptoren, die bei einer speziellen Anwendung in einer bestimmten Beziehung zueinander stehen. Dieses Schema ist eine Baumstruktur. Die Knoten dieses Baumes können entweder Deskriptoren oder wiederum Deskriptoren Schematas sein. Um solch ein Schemata für eine spezielle Anwendung zu definieren, benötigt man eine Sprache, die so genannte Deskription Definition Language (DDL). MPEG-7 verwendet dazu eine Sprache, die auf XML basiert.

DS und DDL an Hand eines Beispiels aus Sounderkennung case2001

1

MPEG-7 Strukurierung von Sounds

DS Soundkategorie "HUNDE" PC

DS Soundkategorie "HUNDE" PDA_Phone

DDL zur Soundkategorie "HUNDE"

_<Label>"HUNDE"</Label>

_<TermRelation term="1.1" scheme="HUNDE">

__<Label<Bellen</Label>

__<TermRelation term="1.2" sheme="HUNDE" type="UF">

____<Label> Wuff</Label>

__</TermRelation>

_</TermRelation>

_<TermRelation term="1.3" scheme="HUNDE">

__<Label<Heulen</Label>

_</TermRelation>

</SoundCategory>

DS Klassifizierung "Haustiere" PC

DS Klassifizierung "Haustiere" PDA_Phone

DDL Klassifizierung "Haustiere"

_<Label>Haustiere</Label>

_<ClassificationSchemeRef scheme="HUNDE"/>

_<ClassificationSchemeRef scheme="KATZEN"/>

</ClassificationScheme>

2

MPEG-7 Strukurierung von Sounds

Zur Veranschaulichung der Begriffe betrachten wir einen Soundtrack eines Spielfilmes. Ein Schrei in einer Szene kann Gefahr bedeuten, viel Gelächter lässt eher auf eine lustige Szene schließen, etc. Zur Kategorisierung charakteristische Klänge, die in einem Spielfilm vorkommen und für ein Retrieval von Relevanz sein können, werden diese bei MPEG-7in eine hierarchischen Baumstruktur, dem Deskriptoren Schema, eingeordnet. Im Folgenden soll exemplarisch gezeigt werden, wie ein solcher Baum sukzessiv aufgebaut wird.

DS Soundkategorie "HUNDE"

Als Beispiel für eine Soundkategorie sei hier die Kategorie „Hunde“ angeführt. Eine mögliche Unterkategorie von „Hunde“ kann der Term „Bellen“ sein. Zusätzlich sollen nun die Terme „Wuff“ und „Heulen“ kategorisiert werden. Heulen ist ein von Bellen unabhängiger Term und wird daher in der Baumstruktur dementsprechend selbstständig platziert. „Wuff“ kann als Synonym zu „Bellen“ aufgefasst werden, bildet daher keine eigene Unterkategorie. Vielmehr wird „Wuff“ als Synonym zu „Bellen“ notiert. MPEG-7 definiert eine solche Beziehung zweier Terme als „Use for (UF)“, wobei wie in unserem Beispiel dem Term „Bellen“ der Vorzug gegeben wird. NT (narrow term) Beziehungen bedeuten, dass der eine Term im anderen beinhaltet ist, aber eine spezifischere Bedeutung hat (In unserem Beispiel „Bellen“ – „Hunde“) Es sei hier am Rande erwähnt, dass der MPEG-7 Standard noch weitere Beziehungen zwischen Terme definiert.

Abbildung DS Soundkategorie "HUNDE" PC

Folgender XML-Code zeigt, wie dieses Deskriptoren Schema mit der Description Definition Language beschrieben wird:

Abbildung DS Soundkategorie "HUNDE" PDA_Phone

Folgender XML-Code zeigt, wie dieses Deskriptoren Schema mit der Description Definition Language beschrieben wird:

DDL zur Soundkategorie "HUNDE"

_<Label>"HUNDE"</Label>

_<TermRelation term="1.1" scheme="HUNDE">

__<Label<Bellen</Label>

__<TermRelation term="1.2" sheme="HUNDE" type="UF">

____<Label> Wuff</Label>

__</TermRelation>

_</TermRelation>

_<TermRelation term="1.3" scheme="HUNDE">

__<Label<Heulen</Label>

_</TermRelation>

</SoundCategory>

DS Klassifizierung "Haustiere"

Die verschiedenen Soundkategorien können in einem Deskriptoren Schema „Klassifizierung“ zusammengefasst werden.

„Hunde“ ist eine Unterkategorie von „Haustiere“. Eine weitere Unterkategorie von „Haustiere“ sei „Katzen“.

DS Klassifizierung "Haustiere" PC

Obiges Deskriptor Schema wird aus den DS für“ Hunde“ und dem DS für „Katzen“ zusammengesetzt. Der XML Code für das Deskriptor Schema „ Haustiere“ sieht aus wie folgt:

(Voraussetzung ist natürlich, dass für die Soundkategorie „Katzen“ bereits auf die selbe Art und Weise wie für „Hunde“ eine DS aufgestellt worden ist)

DS Klassifizierung "Haustiere" PDA_Phone

Obiges Deskriptor Schema wird aus den DS für“ Hunde“ und dem DS für „Katzen“ zusammengesetzt. Der XML Code für das Deskriptor Schema „ Haustiere“ sieht aus wie folgt:

(Voraussetzung ist natürlich, dass für die Soundkategorie „Katzen“ bereits auf die selbe Art und Weise wie für „Hunde“ eine DS aufgestellt worden ist)

DDL Klassifizierung "Haustiere"

_<Label>Haustiere</Label>

_<ClassificationSchemeRef scheme="HUNDE"/>

_<ClassificationSchemeRef scheme="KATZEN"/>

</ClassificationScheme>

Low-level Audio Deskriptoren

1

Deskriptoren im Zeitbereich

Deskriptoren beschreiben Null Kreuzungsrate, Lautstärke etc.
oft verwendete Deskriptoren
- Deskriptor die die Hüllenkurve im Zeitbereich beschreiben
- Deskriptor der Stillanteile beschreibt

Spektrale Deskriptoren

Deskriptoren beschreiben Bandbreite, Helligkeit, Harmonität etc.
oft verwendeter Deskriptor
- Spektraler Hüllkurvendeskriptor -beschreibt Spektogramm in grober Auflösung

Abbildung: Spektraler Hüllkurvendeskriptor PC

Abbildung: Spektraler Hüllkurvendeskriptor PDA_Phone

2

Low-level Deskriptoren

Die low-level Deskriptoren entstehen ausschließlich durch eine Extraktionen des Amplituden/Zeitsignals bzw des Amplituden/Frequenzsignals. So können sie für jedes beliebige Audiosignal, auch wenn dessen genauerer Inhalt nicht bekannt ist, gebildet werden. Jeder Deskriptor beschreibt dabei eine spezielle, für eine bestimmte Anfrage möglicherweise relevant einsetzbare Eigenschaft des Audiosignals.

Deskriptoren im Zeitbereich

Einer dieser Deskriptoren beschreibt die Hüllenkurve des Amplituden/Zeit Diagramms eines Audiosignals in einer bestimmten Auflösung. Typischerweise dient dieser Deskriptor zur grafischen Darstellung des Audiosignals auf einem Display. Ein sehr einfacher, aber sehr hilfreicher Deskriptor beschreibt die Stille eines Audiosignals. Genauer gesagt, er gibt an, wo und wie lange in einer Audiodatei Stille herrscht. Dieser Deskriptor ist ein sehr einfaches Tool, aber er ist sehr effektiv.

Spektrale Deskriptoren

Spektrale Deskriptoren werden aus dem Spektralbereich des Audiosignals extrahiert. So gibt es Deskriptoren, die die Klanghelligkeit, die Bandbreite (siehe Lerneinheit Audioretrieval Überblick) etc. des Audiosignals beschreiben. Als Beispiel für einen spektralen Deskriptor sei hier der „spektrale Hüllkurven Deskriptor“ näher erklärt. Er beschreibt im wesentlichen das Spektogramm des Audiosignals in einer bestimmten Auflösung. Dieser Deskriptor kann nun zur grafischen Repräsentation des Audiosignals verwendet werden. Man kann aber auch mit dessen Hilfe eine akustische Vorschau der Audiodatei generieren. Für ein Audioretrieval System können mit Hilfe des spektrale Hüllkurven Deskriptors die Ähnlichkeit zweier Spektogramme ermittelt werden.

Abbildung: Spektraler Hüllkurvendeskriptor PC

Abbildung: Spektraler Hüllkurvendeskriptor PDA_Phone

High-level Deskriptoren mart2003

1

High-level Deskriptor

High-level Deskriptoren beschreiben spezielle Audiosignale
- Es gibt Deskriptoren für
  - Sprache
  - Musik
  - Geräusche etc.

Beschreibung von Melodie

Melodie Konturen DS

Kodiert jeden Ton mit zwei Werten
- Taktnummer
  - Zu welchem Zeitpunkt Ton ertönt
- Konturenwert
  - kann 5 verschiedene Werte annehmen
    - 0, wenn Tonhöhe gleich bleibt
    - 1 wenn folgender Ton einwenig höher
    - -1 wenn Ton ein wenig niedriger
    - 2 wenn Ton viel höher
    - -2, wenn Ton wesentlich niedriger

Melodie Konturen DS: "Moon River" PC

Melodie Konturen DS: "Moon River" PDA_Phone

Beschreibung von Musikinstrumentenklängen

Deskriptoren beschreiben Signal Charakteristika, die auf spezielle Musikinstrumente rückschliessen lassen
Ein Deskriptor beschreibt plötzliche Anstiege im Signal
- Steilheit Hinweis auf spezielles Musikinstrument
weiterer Deskriptor beschreibt Abklingen im Signal
- Abklingzeit Hinweis auf spezielles Musikinstrument
Andere Deskriptoren beschreiben Oberklänge

Beschreibung von Soundeffekten

Deskriptoren beschreiben Signal Charakteristika, die auf spezielle Klangereignisse rückschliessen lassen
Viele Deskriptoren basieren auf den low-level "spektralen Hüllkurven Deskriptor"

Beschreibung von Gesprochenem

SpokenContentLatticeDeskriptor Schema
SpokenContentHeader

2

High-level Deskriptor

High-level Deskriptoren sind entwickelt worden, um spezielle Audiosignale beschreiben zu können. So umfasst der MPEG-7 Standard Deskriptoren, die speziell zur effektiven Beschreibung von Sprache definiert worden sind. Andere beschreiben ausschließlich Musik, andere wieder Klänge etc. Im folgenden werden einige der im MPEG-7 Standard definierten High-level Deskriptoren vorgestellt.

Beschreibung von Melodie

Dieses Deskriptor Schema repräsentiert monophone Melodien, die für ein Musikstück charakteristisch sind. Es ermöglicht unter anderem die Suche nach einem bestimmten Musikstück, indem man kurz die Hauptmelodie vorsummt. Es werden in MPEG-7 zwei Repräsentationsformen von Melodien definiert. Hier wird das Melodie Konturen DS näher erklärt. Es ist das im Aufbau einfachere DS, ist daher einfacher zu implementieren, hat aber auch eine geringere Präzision.

Melodie Konturen DS

Melodiekontur DS beschreibt eine Melodie, indem es jeweils die Intervalle zwischen aufeinander folgenden Töne kodiert. Der Wert für ein Intervall (Konturenwert) kann 5 verschiedene Werte annehmen: 0, wenn Tonhöhe gleich bleibt, 1 wenn folgender Ton einwenig höher als der vorangegangene Ton ist, -1 wenn Ton ein wenig niedriger, 2 wenn Ton viel höher und -2, wenn Ton wesentlich niedriger als der vorhergehende ist. Weiters enthält das Schema jene Taktschläge, zu dessen Zeitpunkt ein Ton angeschlagen wird.

Melodie Konturen DS: "Moon River" PC

elodie Konturen DS: "Moon River" PDA_Phone

Melodie Konturen DS: "Moon River" als XML

<!—(7 intervale = 8 Noten total) --> <Contour> <ContourData>2 –1 –1 –1 –1 –1 1</ContourData> </Contour> <!—Meter of melody --> <Meter> <Numerator>3</Numerator> <Denominator>4</Denominator> </Meter>   <Beat><BeatData>1 4 5 7 8 9 9 10 </BeatData> </Beat>

Beschreibung von Musikinstrumentenklängen

Diese Deskriptoren repräsentieren das Signal in einer Weise, mit der man auf die darin vorkommenden Musikinstrumente rück schließen kann. Ein Deskriptor beschreibt signalstellen, an denen ein plötzlicher Anstieg des Signals zu beobachten ist. Dieser plötzliche Anstieg entsteht, wenn zum Beispiel eine Klaviertaste angeschlagen wird, eine Trompete ansetzt etc. Die Steilheit eines solchen plötzlichen Signalanstieges kann auf ein bestimmtes Instrument rück schließen. Ein zweiter Deskriptor beschreibt wiederum das Abklingen des Signals nach einem solchen plötzlichen Signalanstieg. Die Abklingzeit ist wieder ein Hinweis auf ein bestimmtes Musikinstrument. So kann zum Beispiel zwischen einer Orgel (kein Abklingen nach Anschlag) und einem Klavier (starkes Abklingen nach Anschlag) unterschieden werden. Andere Deskriptoren beschreiben die Verteilung der Obertöne.

Beschreibung von Soundeffekten

Viele speziell zur Erkennung von Soundeffekten definierten Deskriptoren basieren auf den low-level spektrale Deskriptoren.

Beschreibung von Gesprochenem

Die Beschreibung von gesprochenen Text lässt sich in 2 Hauptgruppen aufteilen: Die erste Gruppe umfasst das SpokenContentLatticeDeskriptor Schema, die einen Text, der durch eine ASR Maschine generiert wurde, repräsentieren. Die zweite Gruppe umfasst den SpokenContentHeader, hier werden Informationen über den Sprecher repräsentiert (siehe auch Lerneinheit Sprachinformationsretrieval).

Anwendungen von Audio MPEG-7 quac2001

1

Abfrage durch Summen

Abbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PC

Abbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PDA_Phone

Abbildung: Extraktion der MPEG-7 Deskriptoren PC

Abbildung: Extraktion der MPEG-7 Deskriptoren PDA_Phone

Abbildung: MPEG-7 Such Prozedur PC

Abbildung: MPEG-7 Such Prozedur PDA_Phone

Abfrage von gesprochenen Text

Beispiel - Telefonmessageservice

2

auto

Um den praktischen Nutzen dieses sehr formalen Standards besser zu verstehen, folgen hier einige Beispiele, die mögliche Einsatzgebiete des Standards beschreiben.

Abfrage durch Summen

Man betrachte ein Streaming Audio Service. Auf einem MPEG-4 Media Server sind Musikstücke im MPEG-4 Format gespeichert. Auf einem MPEG-7 Query Server sind für jedes dieser Musikstücke deren MPEG-7 Metadaten abgelegt. Zusätzlich sind auch Daten wie Titel des Liedes, Interpret, Länge des Stückes, Musikgenre etc gespeichert. Ein Kunde dieses Service will nun über sein wireless Hand-Held ein bestimmtes Musikstück hören. Er drückt auf seinem Gerät den „Query“ Knopf, summt die Melodie des gesuchten Musikstückes. Dieses Audiosignal wird an den MPEG-7 Query Server geschickt. Es wird daraus der Melodie Deskriptor extrahiert (Eine mögliche Technik der Melodieextraktion wird in der Lerneinheit Fallbeispiel: MusArt beschrieben). Dieser wird mit den Melodiedeskriptoren der MPEG-7 Datenbank verglichen. Die besten Treffer werden in Form von Titel, Interpret etc. auf dem Benutzerdisplay gelistet. Nach Auswahl des gewünschten Musikstücks wird dieses vom MPEG-4 Media Server an das Benutzergerät gesendet. Durch weitere Anfragen, wie „Suche weitere Musikstücke vom gleichen Interpret“ oder „Suche Musikstücke, die ähnliche Klangcharakteristik aufweisen“ kann die Suche beliebig fortgesetzt werden.

Abbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PC

Abbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PDA_Phone

Abbildung: Extraktion der MPEG-7 Deskriptoren PC

Abbildung: Extraktion der MPEG-7 Deskriptoren PDA_Phone

Abbildung: MPEG-7 Such Prozedur PC

Abbildung: MPEG-7 Such Prozedur PDA_Phone

Abfrage von gesprochenen Text

Wir betrachten nun ein Telefon Message Service. Jede Nachricht, die auf der Mailbox eines Kunden gesprochen wird, wird mit Hilfe eines Texterkennungsprogrammes in Text umgewandelt. Die relevanten Inhalte werden als MPEG-7 Metadaten auf einem MPEG-7 Query Server abgelegt. Zusätzlich werden Daten wie Telefonnummer des Anrufers, Zeit des Anrufs, Länge des Anrufs etc. gespeichert. Sucht der Kunde nun einen speziellen Anruf auf seiner Mailbox, kann er durch Anfragen wie „War gestern ein Anruf betreff Konzertkarten?“ schnell fündig werden.

(empty)