Current Page: | Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m05 » Learning Units » Unit ID: 03_24 |
---|---|
Last Modified: | Tuesday, 2015-05-05 - 08:08:58 |
Tools: | Validate — Preview XML Preview HTML Preview PDF |
Alternative: | Printable HTML |
Title: | MPEG-7 Audio | ||
---|---|---|---|
Abstract: | Um Audiodaten für ein Retrieval System zugänglich zu machen, ist es wie bei allen multimedialen Daten notwendig, neben den eigentlichen Audiodaten geeignete Meta-Daten abzulegen. Die ISO hat sich bei der Erarbeitung es MPEG-7 Standards die Aufgabe gesetzt, Repräsentationen multimedialer und somit auch Audiodaten zu standardisieren. | ||
Status: | Final | Version: | 2004-09-23 |
History: |
2004-09-23 (thomas migl): abb. explanations korrigiert 2004-09-16 (Thomas migl): fehlende Abb. hinzugefügt 2004-09-13 (Thomas Migl): Abb hinzugefügt 2004-09-09 (Thomas Migl): in greybox importiert, eine final Abb hineingestellt 2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion. 2004-03-12 (Robert Fuchs): Fixed bugs in content tagging. 2004-03-11 (Thomas Migl): LOD1, abstract added 2004-03-05 (Robert Fuchs): Imported and tagged content from "m5-LU24-MPEG7 Audio.doc". |
Author 1: | Thomas Migl | E-Mail: | migl@ims.tuwien.ac.at |
---|---|---|---|
Author 2: | (empty) | E-Mail: | (empty) |
Author 3: | (empty) | E-Mail: | (empty) |
Author 4: | (empty) | E-Mail: | (empty) |
Author 5: | (empty) | E-Mail: | (empty) |
Organization: | Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/ |
Struktur des MPEG-7 Standards quac20011Motivation MPEG-7
Deskriptoren
Deskriptoren Schema (DS) und Description Definition Language (DDL)
2Motivation MPEG-7Um Audiodaten für ein Retrieval System zugänglich zu machen, ist es wie bei allen multimedialen Daten notwendig, neben den eigentlichen Audiodaten geeignete Meta-Daten abzulegen. Diese Metadaten sollen in der Lage sein, das Audiomaterial in einer Weise zu repräsentieren, sodass es bei einer entsprechenden Abfrage anhand seiner Metadaten auch gefunden wird. (Beispiele siehe Audioretrieval Überblick ). Die ISO hat sich bei der Erarbeitung es MPEG-7 Standards die Aufgabe gesetzt, Repräsentationen multimedialer und somit auch Audiodaten zu standardisieren. Auch für MPEG-7 /Audio werden Deskriptoren und Deskriptoren Schemeta definiert. DeskriptorenJeder Deskriptor beschreibt eine spezielle Eigenschaft des Audiosignals (zum Beispiel: Helligkeit des Signals). Ein Deskriptor kann diese Eigenschaft in 2 Formen repräsentieren:
Unterschiedlicher Level derDeskriptorIm Standard wird zwischen Low-level und high-level Deskriptoren unterschieden. Low-level DeskriptorDie low-level Deskriptoren können auf jedes beliebige Audiosignal angewandt werden, ganz unabhängig von dessen Inhalt. High-level DeskriptorHigh-level Deskriptoren sind entwickelt worden, um spezielle Audiosignale beschreiben zu können. So umfasst der MPEG-7 Standard Deskriptoren, die speziell zur effektiven Beschreibung von Sprache definiert worden sind. Andere beschreiben ausschließlich Musik, andere wieder Klänge etc. Deskriptoren Schema und Description Definition LanguageDeskriptoren Schemata beschreibt eine Gruppe von Deskriptoren, die bei einer speziellen Anwendung in einer bestimmten Beziehung zueinander stehen. Dieses Schema ist eine Baumstruktur. Die Knoten dieses Baumes können entweder Deskriptoren oder wiederum Deskriptoren Schematas sein. Um solch ein Schemata für eine spezielle Anwendung zu definieren, benötigt man eine Sprache, die so genannte Deskription Definition Language (DDL). MPEG-7 verwendet dazu eine Sprache, die auf XML basiert. DS und DDL an Hand eines Beispiels aus Sounderkennung case20011MPEG-7 Strukurierung von SoundsDS Soundkategorie "HUNDE" PCDS Soundkategorie "HUNDE" PDA_PhoneDDL zur Soundkategorie "HUNDE"<SoundCategory term="1" scheme=HUNDE"> _<Label>"HUNDE"</Label> _<TermRelation term="1.1" scheme="HUNDE"> __<Label<Bellen</Label> __<TermRelation term="1.2" sheme="HUNDE" type="UF"> ____<Label> Wuff</Label> __</TermRelation> _</TermRelation> _<TermRelation term="1.3" scheme="HUNDE"> __<Label<Heulen</Label> _</TermRelation> </SoundCategory> DS Klassifizierung "Haustiere" PCDS Klassifizierung "Haustiere" PDA_PhoneDDL Klassifizierung "Haustiere"<ClassificationScheme term="0" sheme="Haustiere"> _<Label>Haustiere</Label> _<ClassificationSchemeRef scheme="HUNDE"/> _<ClassificationSchemeRef scheme="KATZEN"/> </ClassificationScheme> 2MPEG-7 Strukurierung von SoundsZur Veranschaulichung der Begriffe betrachten wir einen Soundtrack eines Spielfilmes. Ein Schrei in einer Szene kann Gefahr bedeuten, viel Gelächter lässt eher auf eine lustige Szene schließen, etc. Zur Kategorisierung charakteristische Klänge, die in einem Spielfilm vorkommen und für ein Retrieval von Relevanz sein können, werden diese bei MPEG-7in eine hierarchischen Baumstruktur, dem Deskriptoren Schema, eingeordnet. Im Folgenden soll exemplarisch gezeigt werden, wie ein solcher Baum sukzessiv aufgebaut wird. DS Soundkategorie "HUNDE"Als Beispiel für eine Soundkategorie sei hier die Kategorie „Hunde“ angeführt. Eine mögliche Unterkategorie von „Hunde“ kann der Term „Bellen“ sein. Zusätzlich sollen nun die Terme „Wuff“ und „Heulen“ kategorisiert werden. Heulen ist ein von Bellen unabhängiger Term und wird daher in der Baumstruktur dementsprechend selbstständig platziert. „Wuff“ kann als Synonym zu „Bellen“ aufgefasst werden, bildet daher keine eigene Unterkategorie. Vielmehr wird „Wuff“ als Synonym zu „Bellen“ notiert. MPEG-7 definiert eine solche Beziehung zweier Terme als „Use for (UF)“, wobei wie in unserem Beispiel dem Term „Bellen“ der Vorzug gegeben wird. NT (narrow term) Beziehungen bedeuten, dass der eine Term im anderen beinhaltet ist, aber eine spezifischere Bedeutung hat (In unserem Beispiel „Bellen“ – „Hunde“) Es sei hier am Rande erwähnt, dass der MPEG-7 Standard noch weitere Beziehungen zwischen Terme definiert. Abbildung DS Soundkategorie "HUNDE" PCFolgender XML-Code zeigt, wie dieses Deskriptoren Schema mit der Description Definition Language beschrieben wird: Abbildung DS Soundkategorie "HUNDE" PDA_PhoneFolgender XML-Code zeigt, wie dieses Deskriptoren Schema mit der Description Definition Language beschrieben wird: DDL zur Soundkategorie "HUNDE"<SoundCategory term="1" scheme=HUNDE"> _<Label>"HUNDE"</Label> _<TermRelation term="1.1" scheme="HUNDE"> __<Label<Bellen</Label> __<TermRelation term="1.2" sheme="HUNDE" type="UF"> ____<Label> Wuff</Label> __</TermRelation> _</TermRelation> _<TermRelation term="1.3" scheme="HUNDE"> __<Label<Heulen</Label> _</TermRelation> </SoundCategory> DS Klassifizierung "Haustiere"Die verschiedenen Soundkategorien können in einem Deskriptoren Schema „Klassifizierung“ zusammengefasst werden. „Hunde“ ist eine Unterkategorie von „Haustiere“. Eine weitere Unterkategorie von „Haustiere“ sei „Katzen“. DS Klassifizierung "Haustiere" PCObiges Deskriptor Schema wird aus den DS für“ Hunde“ und dem DS für „Katzen“ zusammengesetzt. Der XML Code für das Deskriptor Schema „ Haustiere“ sieht aus wie folgt: (Voraussetzung ist natürlich, dass für die Soundkategorie „Katzen“ bereits auf die selbe Art und Weise wie für „Hunde“ eine DS aufgestellt worden ist) DS Klassifizierung "Haustiere" PDA_PhoneObiges Deskriptor Schema wird aus den DS für“ Hunde“ und dem DS für „Katzen“ zusammengesetzt. Der XML Code für das Deskriptor Schema „ Haustiere“ sieht aus wie folgt: (Voraussetzung ist natürlich, dass für die Soundkategorie „Katzen“ bereits auf die selbe Art und Weise wie für „Hunde“ eine DS aufgestellt worden ist) DDL Klassifizierung "Haustiere"<ClassificationScheme term="0" sheme="Haustiere"> _<Label>Haustiere</Label> _<ClassificationSchemeRef scheme="HUNDE"/> _<ClassificationSchemeRef scheme="KATZEN"/> </ClassificationScheme> Low-level Audio Deskriptoren1Deskriptoren im Zeitbereich
Spektrale Deskriptoren
Abbildung: Spektraler Hüllkurvendeskriptor PCAbbildung: Spektraler Hüllkurvendeskriptor PDA_Phone2Low-level DeskriptorenDie low-level Deskriptoren entstehen ausschließlich durch eine Extraktionen des Amplituden/Zeitsignals bzw des Amplituden/Frequenzsignals. So können sie für jedes beliebige Audiosignal, auch wenn dessen genauerer Inhalt nicht bekannt ist, gebildet werden. Jeder Deskriptor beschreibt dabei eine spezielle, für eine bestimmte Anfrage möglicherweise relevant einsetzbare Eigenschaft des Audiosignals. Deskriptoren im ZeitbereichEiner dieser Deskriptoren beschreibt die Hüllenkurve des Amplituden/Zeit Diagramms eines Audiosignals in einer bestimmten Auflösung. Typischerweise dient dieser Deskriptor zur grafischen Darstellung des Audiosignals auf einem Display. Ein sehr einfacher, aber sehr hilfreicher Deskriptor beschreibt die Stille eines Audiosignals. Genauer gesagt, er gibt an, wo und wie lange in einer Audiodatei Stille herrscht. Dieser Deskriptor ist ein sehr einfaches Tool, aber er ist sehr effektiv. Spektrale DeskriptorenSpektrale Deskriptoren werden aus dem Spektralbereich des Audiosignals extrahiert. So gibt es Deskriptoren, die die Klanghelligkeit, die Bandbreite (siehe Lerneinheit Audioretrieval Überblick) etc. des Audiosignals beschreiben. Als Beispiel für einen spektralen Deskriptor sei hier der „spektrale Hüllkurven Deskriptor“ näher erklärt. Er beschreibt im wesentlichen das Spektogramm des Audiosignals in einer bestimmten Auflösung. Dieser Deskriptor kann nun zur grafischen Repräsentation des Audiosignals verwendet werden. Man kann aber auch mit dessen Hilfe eine akustische Vorschau der Audiodatei generieren. Für ein Audioretrieval System können mit Hilfe des spektrale Hüllkurven Deskriptors die Ähnlichkeit zweier Spektogramme ermittelt werden. Abbildung: Spektraler Hüllkurvendeskriptor PCAbbildung: Spektraler Hüllkurvendeskriptor PDA_PhoneHigh-level Deskriptoren mart20031High-level Deskriptor
Beschreibung von MelodieMelodie Konturen DS
Melodie Konturen DS: "Moon River" PCMelodie Konturen DS: "Moon River" PDA_PhoneBeschreibung von Musikinstrumentenklängen
Beschreibung von Soundeffekten
Beschreibung von Gesprochenem
2High-level DeskriptorHigh-level Deskriptoren sind entwickelt worden, um spezielle Audiosignale beschreiben zu können. So umfasst der MPEG-7 Standard Deskriptoren, die speziell zur effektiven Beschreibung von Sprache definiert worden sind. Andere beschreiben ausschließlich Musik, andere wieder Klänge etc. Im folgenden werden einige der im MPEG-7 Standard definierten High-level Deskriptoren vorgestellt. Beschreibung von MelodieDieses Deskriptor Schema repräsentiert monophone Melodien, die für ein Musikstück charakteristisch sind. Es ermöglicht unter anderem die Suche nach einem bestimmten Musikstück, indem man kurz die Hauptmelodie vorsummt. Es werden in MPEG-7 zwei Repräsentationsformen von Melodien definiert. Hier wird das Melodie Konturen DS näher erklärt. Es ist das im Aufbau einfachere DS, ist daher einfacher zu implementieren, hat aber auch eine geringere Präzision. Melodie Konturen DSMelodiekontur DS beschreibt eine Melodie, indem es jeweils die Intervalle zwischen aufeinander folgenden Töne kodiert. Der Wert für ein Intervall (Konturenwert) kann 5 verschiedene Werte annehmen: 0, wenn Tonhöhe gleich bleibt, 1 wenn folgender Ton einwenig höher als der vorangegangene Ton ist, -1 wenn Ton ein wenig niedriger, 2 wenn Ton viel höher und -2, wenn Ton wesentlich niedriger als der vorhergehende ist. Weiters enthält das Schema jene Taktschläge, zu dessen Zeitpunkt ein Ton angeschlagen wird. Melodie Konturen DS: "Moon River" PCelodie Konturen DS: "Moon River" PDA_PhoneMelodie Konturen DS: "Moon River" als XML<!-- MelodyContoursDS description of „Moon River“ --> <!—(7 intervale = 8 Noten total) --> <Contour> <ContourData>2 –1 –1 –1 –1 –1 1</ContourData> </Contour> <!—Meter of melody --> <Meter> <Numerator>3</Numerator> <Denominator>4</Denominator> </Meter> <!-- Beat positions of notes --> <!-- (8 notes = 1 more than number of intervals) --> <Beat><BeatData>1 4 5 7 8 9 9 10 </BeatData> </Beat> Beschreibung von MusikinstrumentenklängenDiese Deskriptoren repräsentieren das Signal in einer Weise, mit der man auf die darin vorkommenden Musikinstrumente rück schließen kann. Ein Deskriptor beschreibt signalstellen, an denen ein plötzlicher Anstieg des Signals zu beobachten ist. Dieser plötzliche Anstieg entsteht, wenn zum Beispiel eine Klaviertaste angeschlagen wird, eine Trompete ansetzt etc. Die Steilheit eines solchen plötzlichen Signalanstieges kann auf ein bestimmtes Instrument rück schließen. Ein zweiter Deskriptor beschreibt wiederum das Abklingen des Signals nach einem solchen plötzlichen Signalanstieg. Die Abklingzeit ist wieder ein Hinweis auf ein bestimmtes Musikinstrument. So kann zum Beispiel zwischen einer Orgel (kein Abklingen nach Anschlag) und einem Klavier (starkes Abklingen nach Anschlag) unterschieden werden. Andere Deskriptoren beschreiben die Verteilung der Obertöne. Beschreibung von SoundeffektenViele speziell zur Erkennung von Soundeffekten definierten Deskriptoren basieren auf den low-level spektrale Deskriptoren. Beschreibung von GesprochenemDie Beschreibung von gesprochenen Text lässt sich in 2 Hauptgruppen aufteilen: Die erste Gruppe umfasst das SpokenContentLatticeDeskriptor Schema, die einen Text, der durch eine ASR Maschine generiert wurde, repräsentieren. Die zweite Gruppe umfasst den SpokenContentHeader, hier werden Informationen über den Sprecher repräsentiert (siehe auch Lerneinheit Sprachinformationsretrieval). Anwendungen von Audio MPEG-7 quac20011Abfrage durch SummenAbbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PCAbbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PDA_PhoneAbbildung: Extraktion der MPEG-7 Deskriptoren PCAbbildung: Extraktion der MPEG-7 Deskriptoren PDA_PhoneAbbildung: MPEG-7 Such Prozedur PCAbbildung: MPEG-7 Such Prozedur PDA_PhoneAbfrage von gesprochenen Text
2autoUm den praktischen Nutzen dieses sehr formalen Standards besser zu verstehen, folgen hier einige Beispiele, die mögliche Einsatzgebiete des Standards beschreiben. Abfrage durch SummenMan betrachte ein Streaming Audio Service. Auf einem MPEG-4 Media Server sind Musikstücke im MPEG-4 Format gespeichert. Auf einem MPEG-7 Query Server sind für jedes dieser Musikstücke deren MPEG-7 Metadaten abgelegt. Zusätzlich sind auch Daten wie Titel des Liedes, Interpret, Länge des Stückes, Musikgenre etc gespeichert. Ein Kunde dieses Service will nun über sein wireless Hand-Held ein bestimmtes Musikstück hören. Er drückt auf seinem Gerät den „Query“ Knopf, summt die Melodie des gesuchten Musikstückes. Dieses Audiosignal wird an den MPEG-7 Query Server geschickt. Es wird daraus der Melodie Deskriptor extrahiert (Eine mögliche Technik der Melodieextraktion wird in der Lerneinheit Fallbeispiel: MusArt beschrieben). Dieser wird mit den Melodiedeskriptoren der MPEG-7 Datenbank verglichen. Die besten Treffer werden in Form von Titel, Interpret etc. auf dem Benutzerdisplay gelistet. Nach Auswahl des gewünschten Musikstücks wird dieses vom MPEG-4 Media Server an das Benutzergerät gesendet. Durch weitere Anfragen, wie „Suche weitere Musikstücke vom gleichen Interpret“ oder „Suche Musikstücke, die ähnliche Klangcharakteristik aufweisen“ kann die Suche beliebig fortgesetzt werden. Abbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PCAbbildung:MPEG-7 client server Architektur für "Abfrage durch Summen" PDA_PhoneAbbildung: Extraktion der MPEG-7 Deskriptoren PCAbbildung: Extraktion der MPEG-7 Deskriptoren PDA_PhoneAbbildung: MPEG-7 Such Prozedur PCAbbildung: MPEG-7 Such Prozedur PDA_PhoneAbfrage von gesprochenen TextWir betrachten nun ein Telefon Message Service. Jede Nachricht, die auf der Mailbox eines Kunden gesprochen wird, wird mit Hilfe eines Texterkennungsprogrammes in Text umgewandelt. Die relevanten Inhalte werden als MPEG-7 Metadaten auf einem MPEG-7 Query Server abgelegt. Zusätzlich werden Daten wie Telefonnummer des Anrufers, Zeit des Anrufs, Länge des Anrufs etc. gespeichert. Sucht der Kunde nun einen speziellen Anruf auf seiner Mailbox, kann er durch Anfragen wie „War gestern ein Anruf betreff Konzertkarten?“ schnell fündig werden. |
(empty) |