Current Page: Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m05 » Learning Units » Unit ID: 03_23
Last Modified:Tuesday, 2015-05-05 - 08:08:58
 
Tools: ValidatePreview XML Preview HTML Preview PDF
Alternative: Printable HTML

 

Learning Unit ID: 03_23
Title: Musikinformationsretrieval
Abstract: Grundsätzlich kann man die Forschungarbeiten an MIR in zwei Gruppen unterteilen: Analyse/Produktions MIR Systeme und Lokalisierende MIR Systeme. Erstere versorgen Personen, die meist beruflich mit Musik zu tun haben,mit detaillierten Informationen über Musikmaterialien in einer Musikdatenbank. Lokalisierende MIR Systeme sind hingegen für ein Massenpublikum gedacht: Es soll mittels einfacher musikalischer Artikulation möglich sein, gewünschte Musikdateien aus einem beliebig großen Datenbestand zu filtern.
 
Status: Final Version: 2004-09-16
History: 2004-09-16 (Thomas Migl). fehlende Abb hinzugefügt
2004-09-03 (Thomas migl). in greybox importiert, finalisiert
2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion.
2004-03-12 (Robert Fuchs): Fixed bugs in content tagging.
2004-03-10 (Thomas Migl): LOD1,abstract added
2004-03-05 (Robert Fuchs): Imported and tagged content from "m5-LU23-Musikinformationsretrieval.doc".

Author
Author 1: Thomas Migl E-Mail: migl@ims.tuwien.ac.at
Author 2: (empty) E-Mail: (empty)
Author 3: (empty) E-Mail: (empty)
Author 4: (empty) E-Mail: (empty)
Author 5: (empty) E-Mail: (empty)
Organization: Organisation: Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

Content

Musikinformationretrieval Systeme down2003

1

Analyse/Produktions-MIR-Systeme

  • Zielgruppe - Berufsmusiker, Musikwissenschaftler, Verleger...
  • CDs, Tonbänder, Partituren etc eines Musikarchivs sollen möglichst genau und vielfältig repräsentiert werden
  • MIR System soll verschiedenste Arten von Anfragen bearbeiten können
  • Vielfältige Gestaltungsmöglichkeit der Abfrage
    • eingescannte Partitur
    • grafische Eingabe einer Melodie auf grafischer Oberfläche
    • Melodieeingabe mittels Midiinstrument
  • Beispiele:
    • Musikwissenschaftler sucht Musikstücke mit bestimmten melodischen, harmonischen Strukuren
    • Verleger sucht spezielle Notationen eines Musikstückes
  • Für Massendatenbanken nicht geeignet

Lokalisierende MIR Systeme

  • Zielgruppe - Massenpublikum
  • Ziel - mittels einfacher musikalischer Artikulation soll gewünschtes Musikstück aus einer beliebig großen Datenbank (z.B. WWW) schnell gefunden werden
  • Musikstücke muss möglichst grob repräsentiert sein
  • Beschränkte Gestaltungsmöglichkeit der Abfrage
    • Abfrage durch Vorsummen
    • Query-by-Example

2

Vision Musikinformationsretrieval

Man stelle sich vor, man geht eines schönen Tages zu seinem Computer, nimmt ein Mikrofon in die Hand und singt in dieses jene Melodie, die einem schon seit längerer Zeit als Ohrwurm verfolgt. Der Computer identifiziert im Nu die Melodie und stellt eine Liste von Links zu Verfügung, die die verschiedensten Versionen des Musikstückes enthalten: Einmal nur instrumental, eine andere Version mit Gesangsstimme, das gleiche Lied im Midi-Format, oder einfach das ganze Musikstück als Notenschrift. Die Frage, „Ist ein solches Szenario mit einem der heutigen MIR Systemen bereits Wirklichkeit?“, ist noch mit Nein zu beantworten.

Obiges Beispiel ist nur eines der verschieden Problemstellungen, mit denen sich Forschung für MIR auseinander setzt. Grundsätzlich kann man die Forschungarbeiten an MIR in zwei Gruppen unterteilen:. Analyse/Produktions MIR Systeme und Lokalisierende MIR Systeme.

Analyse/Produktions-MIR-Systeme

Zielgruppe sind Leute, die sich beruflich mit Musik auseinandersetzen. Es sollen die verschiedensten Tonmaterialien (CDs, Tonbänder, Partituren) in einer Art repräsentiert werden, mit deren Hilfe man sehr genaue und spezifische Anfragen an eine bestehende Datenbank richten kann.

Ein Musikwissenschaftler will sich von einem bestimmten Musikstück harmonische, melodische und rhythmische Struktur anzeigen lassen. Weiters will er wissen, ob eines im Musikstück vorkommendes Motiv oder dessen Variationen auch in anderen Kompositionen vorkommen. Ein Komponist sucht in diesem MIR System musikalische Elemente, auf welchen er seine eigenen Kompositionen aufbauen kann. Ein Verleger sucht spezielle Notationen von Musikstücken.

Für ein Analyse/Produktions MIR System sollen auch die Gestaltungsmöglichkeiten einer Anfrage vielfältig sein. So kann eine eingescannte Partitur oder ein Teil davon eine Anfrage sein, Es kann dem Benutzer eine grafische Oberfläche zur Verfügung gestellt werden, mit deren Hilfe er eine Melodie in Notenschrift eingibt. Auch eine Abfrage mittels Midi-Geräte ist möglich.

Da für diese Systeme die benötigte Repräsentation jedes Musikstückes sehr genau und aufwändig sein muss, sind sie für Massendatenbanken nicht geeignet.

Lokalisierende MIR Systeme

Diese Systeme wenden sich an die Masse der mehr oder weniger versierten Musikliebhaber. Ziel ist es eine Möglichkeit zu bieten, aus einem gigantischen Datensatz an Musikmaterialien, wie es zum Beispiel das World wide Web bietet, schnell ein gesuchtes Musikstück zu filtern. Dabei darf die Art der Repräsentation nicht zu kompliziert sein. Bei der Entwicklung eines lokalisierenden MIR Systems ist weiters die meist beschränkte musikalische Artikulationsfähigkeit der Benutzer zu berücksichtigen. Man kann weder von einem Benutzer verlangen, dass er via grafischer Oberfläche eine Melodie notiert noch dass er diese über ein Midi Keyboard in das System eingibt (was die Trefferquote deutlich erhöhen würde). Eine andere Möglichkeit, die bereits viele Systeme verwenden, ist die Eingabe der gesuchten Melodie durch Vorsummen. Hier lauern allerdings viele Fehlerquellen nicht zuletzt verursacht durch Falschsingen. Eine weitere Möglichkeit ist Query-by-Example: Der Benutzer hat ein Musikstück zur Verfügung. Seine Anfrage kann lauten „suche Musikstücke die diesem bezüglich einer bestimmten Eigenschaft ähnlich sind“ .

Repräsentationsformen von Musik

1

Die drei Repräsentationsformen von Musikstücken

Es gibt grundsätzlich drei Repräsentationsformen von Musikstücken

  1. Repräsentation als Audiosignal
  2. Time-stamped Event-Musik wird als Zeitliche Abfolge von Musiknoten dargestellt
  3. Repräsentation mittels Notenschrift

Abbildung: Die drei Repräsentationsformen von Musikstücken PC case2001

Abbildung: Die drei Repräsentationsformen von Musikstücken PDA_Phone case2001

Bedeutung für MIR Systeme

  • Repräsentation als Audiosignal
    • Extraktion von Audiofeatures
    • Wichtig zur Erkennung von musikalischen Klängen
  • Time-stamped Events
    • Computer kann Musik bewerten und dessen musikalischen Strukturen erkennen
    • bekannteste Form ist Midi
  • Notenschrift
    • Spielt bei Analyse/Produktions-MIR-Systeme eine Rolle
    • bei Anfrage mittels eingescannter Partitur muss Notenschrift erkannt werden können

2

Die drei Repräsentationsformen von Musikstücken

Es gibt grundsätzlich drei Repräsentationsformen von Musikstücken

  1. Repräsentation als Audiosignal
  2. Time-stamped Event-Musik wird als Zeitliche Abfolge von Musiknoten dargestellt
  3. Repräsentation mittels Notenschrift

Abbildung: Die drei Repräsentationsformen von Musikstücken PC case2001

Abbildung: Die drei Repräsentationsformen von Musikstücken PDA_Phone case2001

Bedeutung für MIR Systeme

Repräsentation als Audiosignal

Die Repräsentation als Audiosignal von Musik als Audiosignal ist für alle MIR Systeme von Bedeutung, die Audiosignale auf Ähnlichkeiten von Merkmalen vergleichen. die sich aus Extraktionen des Zeit- bzw Frequenzbereiches ergeben (siehe Lerneinheit Überblick Audioretrieval).

Time-stamped Events

Hier werden die einzelnen Töne eines Musikstückes mit ihren Eigenschaften Tonhöhe und Tondauer entlang der Zeitachse angeben. Dies ist die einzige Repräsentationsform von Musik, anhand derer Computerprogramme Melodien, Harmonien, musikalische Strukturen eines Musikstückes erkennen und bewerten kann. In MIR Systemen, die Ähnlichkeiten von Musikstücken an Hand Melodien bewerten, müssen alle Audiodateien mit einer solche „Time stamped Events“ Repräsentation versehen sein. Die heute am häufigsten „Time stamped Events“ Repräsentation ist das Midi-Format. mcph1999

Midi

Midi (Musical Instrument Data Interface) ist der am meist verbreitete Standard zur elektronischen Kodierung von Musiknoten. Er wird von elektronischen Keyboards, Synthesizern, Computer-Soundkarten etc verwendet. Es wird dabei jeder Ton eines Musikstückes durch seine Tonhöhe, seine Dauer, seine Lautstärke beschrieben und binär kodiert. Zusätzlich wird für jeden Ton eine Kanalnummer angegeben, mit deren Hilfe bei mehrstimmigen Stücken jede Note eindeutig einer Stimme zuordenbar ist. Eine so entstandene Midi Datei umfasst die gesamte Partitur des Musikstückes. Die einfachste Art, ein Midi Datei zu kreieren, ist die Eingabe der verschiedenen Stimmen mittels einem Midi Keyboard. Midi ist auch im MPEG-4 Audiostandard beschrieben.

Notenschrift

Hier wird Musik als dessen Partitur repräsentiert. Für die MIR Systeme ist die Notenschrift von Bedeutung, wenn Anfragen an eine Datenbank als Partitur (oder kurze Teile daraus) gestellt werden. Die eingescannte Partitur muss in eine „Time stamped Events“ Repräsentationsform umgewandelt werden. Soll ein Suchergebnis als Notenschrift ausgegeben werden, muss umgekehrt aus der „Time stamped Events“ Repräsentationsform ein Notenschriftbild generiert werden. Diese beiden Techniken der Präsentationsumwandlung scheinen auf den ersten Blick zwar trivial, in die Praxis umzusetzen sind sie aber nur mit hohem Aufwand.

Suche basierend auf akustischen Merkmalen

1

auto

  • Suche basiert auf rein akustische Kriterien
    • Lautstärke, Bandbreite, Spektogramm etc
  • Audiodateien mit speziellen Features werden aus Datenbank gefiltert
  • Anfrage ist Featurevektor
  • Ergebnis sind Musikdateien mit ähnlichen Featurevektoren

2

auto

Bei dieser Suche werden die Audiodateien einer Musikdatenbank rein auf ihre akustische Merkmale (wie Lautstärke, Bandbreite, Rhythmik, Kurzzeit Spektogramm etc (siehe Überblick Audioretrieval ) untersucht.. Je nach gefragten Features können Audiodateien mit speziellen Eigenschaften herausgefiltert werden.So können Musikstücke mit stark akzentuierter Rhythmik anhand eines entsprechenden Referenzspektogramm herausgefiltert werden.. Solomusikstücke können an Hand des Features Stilleverhältnis (Siehe Lerneinheit Überblick Audioretrieval), das im Normalfall relativ hoch ist, von Orchestermusik getrennt werden. Auch die Abfrage, ob ein bestimmtes Instrument in einer Audioaufnahme vorkommt, sollte mit Hilfe des für das Musikinstrument charakteristische Frequenzspektrums möglich sein.

Feature Vektor

Bei Anfragen in der Praxis werden meist mehrere Merkmale der gesuchten Audiodaten spezifiziert.Diese Merkmale werden zu einem so genannten Featurevektor zusammengefasst.

Feature Vektor

Suche Musikstücke die stark rhythmisch akzentuiert, sehr laut, und deren Klang von Trompeten dominiert wird etc. Hier werden die für die Anfrage relevanten Features zu einem Merkmalvektor zusammengefasst. Dieser wird mit den Vektoren der Audiodateien der Datenbank verglichen. Die Dateien, deren Vektoren am ähnlichsten sind, werden dem Benutzer als Ergebnis ausgegeben.

Anfrage mit Hilfe einer Referenzaudiodatei

Mit diesen Systemen können auch Audiodateien als Anfrage genommen werden: „Suche Dateien, die dieser Datei am ähnlichsten sind“. Es wird zuerst aus der Anfrag-Datei ein Featurevektor extrahiert, dieser mit den Vektoren der Datenbankdateien verglichen, die besten Ergebnisse dem Benutzer zur Verfügung gestellt.

Suche nach Tonfolgen

1

auto

  • Musikdateien werden mit der in ihnen enthaltenen Tonfolgen repräsentiert

Prozedur für Suche nach Tonfolgen

  • Beispiel für eine Anfrage - Benutzer summt eine Melodie aus gesuchtem Musikstück
  • auftretende Probleme
    • Sänger kann mit beliebig hohen Ton beginnen
    • Sänger singt nicht ganz richtig
    • Summen ist mit Nebengeräuschen unterlegt
  • DUS Notierung einer Melodie -sehr grobe, aber sehr effektive Darstellung von Melodie
    • D (down) vorherige Note war höher
    • U (up) vorherige Note war tiefer
    • S (same) vorherige Note war gleich

2

auto

Für Abfragen, die sich auf den musikalischen Inhalt eines Musikstückes beziehen, wird versucht, aus einem Audiosignal Melodien zu extrahieren.

Prozedur für Suche nach Tonfolgen

Benutzer singt Melodie. Diese Melodie soll in eine passende „Time-stamped Events“ (siehe Repräsentationsformen von Musik) Form umgewandelt werden und mit Melodien der Musikstücke einer Datenbank verglichen werden.In diesem Fall muss beachtet werden, dass der Sänger mit jedem beliebigen Ton anfangen kann. Es darf daher bei der Kodierung der Melodie nicht mit absoluten Tonhöhen gearbeitet werden, sondern es dürfen nur die Tonhöhendifferenzen (=Intervalle) .zweier aufeinander folgenden Töne betrachtet werden.

DUS Notierung

Eine für „Search by Humming“ Systeme gern verwendete, weil einfache und effektive Methode ist die DUS Darstellung einer Melodie.

Für jede Note wird einer der drei Werte gespeichert:

  • D (down) vorherige Note war höher
  • U (up) vorherige Note war tiefer
  • S (same) vorherige Note war gleich

Eine Melodie wird allein durch eine Folge dieser drei Werte kodiert und zu retrievalzwecken mit den entsprechenden DUS Folgen der Musikstücke der Datenbank verglichen und auf Ähnlichkeiten überprüft.

Probleme bei Suche von Tönen byrd2002,260

1

Monophonie, Polyphonie

  • monophon - es erklingt immer nur eine Stimme
    • Beispiel - Soloflöte, Solosänger etc
  • polyphon - es erklingen mehrere Stimmen gleichzeitig
    • Beispiel - Orchesrtermusik, Chor, Klaviermusik

Notenerkennung

  • alle Tönen eines natürlichen Musikinstrumentes haben auch Obertöne
  • Differenzierung Grundton und Obertöne sehr schwierig
  • Oft werden Obertöne von MIR Systeme als selbstständige Töne klassifiziert
  • Es entstehen Noten, die ursprünglich nicht vorhanden waren
  • Bei monophoner Musik ist Differenzierung möglich
  • Bei polyphoner Musik ist Differenzierung praktisch unmöglich

2

Monophonie, Polyphonie

Musikstücke kann man ganz grob unterscheiden zwischen monophon und polyphon. Bei einem monophonem Musikstück erklingt immer nur ein Ton gleichzeitig. Beispiel monophoner Musik ist eine Soloflöte, ein Solosänger etc. Bei polyphonen Musikstücken können mehrere Töne zum gleichen Zeitpunkt erklingen. Beispiel ist Orchestermusik, Klaviermusik etc. Für heutige MIR-Systeme sind monophone Musikstücke schon gut bearbeitbar, hingegen polyphone stellen auf Grund deren Informationsfülle heute noch unüberwindbare Probleme dar.

Notenerkennung

Ein großes Problem bei MIR stellt das eindeutige Erkennen von Noten dar. Jede musikalische Note, die von einem Musikinstrument gespielt wird, hat auch Oberschwingungen, die so genannten Obertöne. Die einzelnen Obertöne können nur schwer als solche identifiziert werden und werden daher oft fälschlicherweise in einem MIR System als selbstständige Töne klassifiziert. So werden Noten erkannt, die im eigentlichen Musiksignal gar nicht vorhanden waren. Diese Schwierigkeiten werden besonders dann signifikant, wenn im Audiosignal unterschiedlich hohe Töne zur gleichen Zeit gespielt werden, wie z.B bei einem Anschlag eines Akkordes am Klavier. Hier Grundtöne und Obertöne voneinander zu trennen, ist nur schwer möglich. Das ist auch der Grund, dass heutige Systeme bei monophonen Audiosignalen beachtliche 70-80% case2001, 264 Treffergenauigkeit bezüglich Notenerkennung erzielen, hingegen das Ergebnis bei polyphonen Musiksignalen auf Grund der hohen Fehlerquote meist unbrauchbar ist.


Notes
(empty)