Current Page: | Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m05 » Learning Units » Unit ID: 03_23 |
---|---|
Last Modified: | Tuesday, 2015-05-05 - 08:08:58 |
Tools: | Validate — Preview XML Preview HTML Preview PDF |
Alternative: | Printable HTML |
Title: | Musikinformationsretrieval | ||
---|---|---|---|
Abstract: | Grundsätzlich kann man die Forschungarbeiten an MIR in zwei Gruppen unterteilen: Analyse/Produktions MIR Systeme und Lokalisierende MIR Systeme. Erstere versorgen Personen, die meist beruflich mit Musik zu tun haben,mit detaillierten Informationen über Musikmaterialien in einer Musikdatenbank. Lokalisierende MIR Systeme sind hingegen für ein Massenpublikum gedacht: Es soll mittels einfacher musikalischer Artikulation möglich sein, gewünschte Musikdateien aus einem beliebig großen Datenbestand zu filtern. | ||
Status: | Final | Version: | 2004-09-16 |
History: |
2004-09-16 (Thomas Migl). fehlende Abb hinzugefügt 2004-09-03 (Thomas migl). in greybox importiert, finalisiert 2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion. 2004-03-12 (Robert Fuchs): Fixed bugs in content tagging. 2004-03-10 (Thomas Migl): LOD1,abstract added 2004-03-05 (Robert Fuchs): Imported and tagged content from "m5-LU23-Musikinformationsretrieval.doc". |
Author 1: | Thomas Migl | E-Mail: | migl@ims.tuwien.ac.at |
---|---|---|---|
Author 2: | (empty) | E-Mail: | (empty) |
Author 3: | (empty) | E-Mail: | (empty) |
Author 4: | (empty) | E-Mail: | (empty) |
Author 5: | (empty) | E-Mail: | (empty) |
Organization: | Organisation: Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/ |
Musikinformationretrieval Systeme down20031Analyse/Produktions-MIR-Systeme
Lokalisierende MIR Systeme
2Vision MusikinformationsretrievalMan stelle sich vor, man geht eines schönen Tages zu seinem Computer, nimmt ein Mikrofon in die Hand und singt in dieses jene Melodie, die einem schon seit längerer Zeit als Ohrwurm verfolgt. Der Computer identifiziert im Nu die Melodie und stellt eine Liste von Links zu Verfügung, die die verschiedensten Versionen des Musikstückes enthalten: Einmal nur instrumental, eine andere Version mit Gesangsstimme, das gleiche Lied im Midi-Format, oder einfach das ganze Musikstück als Notenschrift. Die Frage, „Ist ein solches Szenario mit einem der heutigen MIR Systemen bereits Wirklichkeit?“, ist noch mit Nein zu beantworten. Obiges Beispiel ist nur eines der verschieden Problemstellungen, mit denen sich Forschung für MIR auseinander setzt. Grundsätzlich kann man die Forschungarbeiten an MIR in zwei Gruppen unterteilen:. Analyse/Produktions MIR Systeme und Lokalisierende MIR Systeme. Analyse/Produktions-MIR-SystemeZielgruppe sind Leute, die sich beruflich mit Musik auseinandersetzen. Es sollen die verschiedensten Tonmaterialien (CDs, Tonbänder, Partituren) in einer Art repräsentiert werden, mit deren Hilfe man sehr genaue und spezifische Anfragen an eine bestehende Datenbank richten kann. Ein Musikwissenschaftler will sich von einem bestimmten Musikstück harmonische, melodische und rhythmische Struktur anzeigen lassen. Weiters will er wissen, ob eines im Musikstück vorkommendes Motiv oder dessen Variationen auch in anderen Kompositionen vorkommen. Ein Komponist sucht in diesem MIR System musikalische Elemente, auf welchen er seine eigenen Kompositionen aufbauen kann. Ein Verleger sucht spezielle Notationen von Musikstücken. Für ein Analyse/Produktions MIR System sollen auch die Gestaltungsmöglichkeiten einer Anfrage vielfältig sein. So kann eine eingescannte Partitur oder ein Teil davon eine Anfrage sein, Es kann dem Benutzer eine grafische Oberfläche zur Verfügung gestellt werden, mit deren Hilfe er eine Melodie in Notenschrift eingibt. Auch eine Abfrage mittels Midi-Geräte ist möglich. Da für diese Systeme die benötigte Repräsentation jedes Musikstückes sehr genau und aufwändig sein muss, sind sie für Massendatenbanken nicht geeignet. Lokalisierende MIR SystemeDiese Systeme wenden sich an die Masse der mehr oder weniger versierten Musikliebhaber. Ziel ist es eine Möglichkeit zu bieten, aus einem gigantischen Datensatz an Musikmaterialien, wie es zum Beispiel das World wide Web bietet, schnell ein gesuchtes Musikstück zu filtern. Dabei darf die Art der Repräsentation nicht zu kompliziert sein. Bei der Entwicklung eines lokalisierenden MIR Systems ist weiters die meist beschränkte musikalische Artikulationsfähigkeit der Benutzer zu berücksichtigen. Man kann weder von einem Benutzer verlangen, dass er via grafischer Oberfläche eine Melodie notiert noch dass er diese über ein Midi Keyboard in das System eingibt (was die Trefferquote deutlich erhöhen würde). Eine andere Möglichkeit, die bereits viele Systeme verwenden, ist die Eingabe der gesuchten Melodie durch Vorsummen. Hier lauern allerdings viele Fehlerquellen nicht zuletzt verursacht durch Falschsingen. Eine weitere Möglichkeit ist Query-by-Example: Der Benutzer hat ein Musikstück zur Verfügung. Seine Anfrage kann lauten „suche Musikstücke die diesem bezüglich einer bestimmten Eigenschaft ähnlich sind“ . Repräsentationsformen von Musik1Die drei Repräsentationsformen von MusikstückenEs gibt grundsätzlich drei Repräsentationsformen von Musikstücken
Abbildung: Die drei Repräsentationsformen von Musikstücken PC case2001
Abbildung: Die drei Repräsentationsformen von Musikstücken PDA_Phone case2001
Bedeutung für MIR Systeme
2Die drei Repräsentationsformen von MusikstückenEs gibt grundsätzlich drei Repräsentationsformen von Musikstücken
Abbildung: Die drei Repräsentationsformen von Musikstücken PC case2001
Abbildung: Die drei Repräsentationsformen von Musikstücken PDA_Phone case2001
Bedeutung für MIR SystemeRepräsentation als AudiosignalDie Repräsentation als Audiosignal von Musik als Audiosignal ist für alle MIR Systeme von Bedeutung, die Audiosignale auf Ähnlichkeiten von Merkmalen vergleichen. die sich aus Extraktionen des Zeit- bzw Frequenzbereiches ergeben (siehe Lerneinheit Überblick Audioretrieval). Time-stamped EventsHier werden die einzelnen Töne eines Musikstückes mit ihren Eigenschaften Tonhöhe und Tondauer entlang der Zeitachse angeben. Dies ist die einzige Repräsentationsform von Musik, anhand derer Computerprogramme Melodien, Harmonien, musikalische Strukturen eines Musikstückes erkennen und bewerten kann. In MIR Systemen, die Ähnlichkeiten von Musikstücken an Hand Melodien bewerten, müssen alle Audiodateien mit einer solche „Time stamped Events“ Repräsentation versehen sein. Die heute am häufigsten „Time stamped Events“ Repräsentation ist das Midi-Format. mcph1999 MidiMidi (Musical Instrument Data Interface) ist der am meist verbreitete Standard zur elektronischen Kodierung von Musiknoten. Er wird von elektronischen Keyboards, Synthesizern, Computer-Soundkarten etc verwendet. Es wird dabei jeder Ton eines Musikstückes durch seine Tonhöhe, seine Dauer, seine Lautstärke beschrieben und binär kodiert. Zusätzlich wird für jeden Ton eine Kanalnummer angegeben, mit deren Hilfe bei mehrstimmigen Stücken jede Note eindeutig einer Stimme zuordenbar ist. Eine so entstandene Midi Datei umfasst die gesamte Partitur des Musikstückes. Die einfachste Art, ein Midi Datei zu kreieren, ist die Eingabe der verschiedenen Stimmen mittels einem Midi Keyboard. Midi ist auch im MPEG-4 Audiostandard beschrieben. NotenschriftHier wird Musik als dessen Partitur repräsentiert. Für die MIR Systeme ist die Notenschrift von Bedeutung, wenn Anfragen an eine Datenbank als Partitur (oder kurze Teile daraus) gestellt werden. Die eingescannte Partitur muss in eine „Time stamped Events“ Repräsentationsform umgewandelt werden. Soll ein Suchergebnis als Notenschrift ausgegeben werden, muss umgekehrt aus der „Time stamped Events“ Repräsentationsform ein Notenschriftbild generiert werden. Diese beiden Techniken der Präsentationsumwandlung scheinen auf den ersten Blick zwar trivial, in die Praxis umzusetzen sind sie aber nur mit hohem Aufwand. Suche basierend auf akustischen Merkmalen1auto
2autoBei dieser Suche werden die Audiodateien einer Musikdatenbank rein auf ihre akustische Merkmale (wie Lautstärke, Bandbreite, Rhythmik, Kurzzeit Spektogramm etc (siehe Überblick Audioretrieval ) untersucht.. Je nach gefragten Features können Audiodateien mit speziellen Eigenschaften herausgefiltert werden.So können Musikstücke mit stark akzentuierter Rhythmik anhand eines entsprechenden Referenzspektogramm herausgefiltert werden.. Solomusikstücke können an Hand des Features Stilleverhältnis (Siehe Lerneinheit Überblick Audioretrieval), das im Normalfall relativ hoch ist, von Orchestermusik getrennt werden. Auch die Abfrage, ob ein bestimmtes Instrument in einer Audioaufnahme vorkommt, sollte mit Hilfe des für das Musikinstrument charakteristische Frequenzspektrums möglich sein. Feature VektorBei Anfragen in der Praxis werden meist mehrere Merkmale der gesuchten Audiodaten spezifiziert.Diese Merkmale werden zu einem so genannten Featurevektor zusammengefasst. Feature VektorSuche Musikstücke die stark rhythmisch akzentuiert, sehr laut, und deren Klang von Trompeten dominiert wird etc. Hier werden die für die Anfrage relevanten Features zu einem Merkmalvektor zusammengefasst. Dieser wird mit den Vektoren der Audiodateien der Datenbank verglichen. Die Dateien, deren Vektoren am ähnlichsten sind, werden dem Benutzer als Ergebnis ausgegeben. Anfrage mit Hilfe einer ReferenzaudiodateiMit diesen Systemen können auch Audiodateien als Anfrage genommen werden: „Suche Dateien, die dieser Datei am ähnlichsten sind“. Es wird zuerst aus der Anfrag-Datei ein Featurevektor extrahiert, dieser mit den Vektoren der Datenbankdateien verglichen, die besten Ergebnisse dem Benutzer zur Verfügung gestellt. Suche nach Tonfolgen1auto
Prozedur für Suche nach Tonfolgen
2autoFür Abfragen, die sich auf den musikalischen Inhalt eines Musikstückes beziehen, wird versucht, aus einem Audiosignal Melodien zu extrahieren. Prozedur für Suche nach TonfolgenBenutzer singt Melodie. Diese Melodie soll in eine passende „Time-stamped Events“ (siehe Repräsentationsformen von Musik) Form umgewandelt werden und mit Melodien der Musikstücke einer Datenbank verglichen werden.In diesem Fall muss beachtet werden, dass der Sänger mit jedem beliebigen Ton anfangen kann. Es darf daher bei der Kodierung der Melodie nicht mit absoluten Tonhöhen gearbeitet werden, sondern es dürfen nur die Tonhöhendifferenzen (=Intervalle) .zweier aufeinander folgenden Töne betrachtet werden. DUS NotierungEine für „Search by Humming“ Systeme gern verwendete, weil einfache und effektive Methode ist die DUS Darstellung einer Melodie. Für jede Note wird einer der drei Werte gespeichert:
Eine Melodie wird allein durch eine Folge dieser drei Werte kodiert und zu retrievalzwecken mit den entsprechenden DUS Folgen der Musikstücke der Datenbank verglichen und auf Ähnlichkeiten überprüft. Probleme bei Suche von Tönen byrd2002,2601Monophonie, Polyphonie
Notenerkennung
2Monophonie, PolyphonieMusikstücke kann man ganz grob unterscheiden zwischen monophon und polyphon. Bei einem monophonem Musikstück erklingt immer nur ein Ton gleichzeitig. Beispiel monophoner Musik ist eine Soloflöte, ein Solosänger etc. Bei polyphonen Musikstücken können mehrere Töne zum gleichen Zeitpunkt erklingen. Beispiel ist Orchestermusik, Klaviermusik etc. Für heutige MIR-Systeme sind monophone Musikstücke schon gut bearbeitbar, hingegen polyphone stellen auf Grund deren Informationsfülle heute noch unüberwindbare Probleme dar. NotenerkennungEin großes Problem bei MIR stellt das eindeutige Erkennen von Noten dar. Jede musikalische Note, die von einem Musikinstrument gespielt wird, hat auch Oberschwingungen, die so genannten Obertöne. Die einzelnen Obertöne können nur schwer als solche identifiziert werden und werden daher oft fälschlicherweise in einem MIR System als selbstständige Töne klassifiziert. So werden Noten erkannt, die im eigentlichen Musiksignal gar nicht vorhanden waren. Diese Schwierigkeiten werden besonders dann signifikant, wenn im Audiosignal unterschiedlich hohe Töne zur gleichen Zeit gespielt werden, wie z.B bei einem Anschlag eines Akkordes am Klavier. Hier Grundtöne und Obertöne voneinander zu trennen, ist nur schwer möglich. Das ist auch der Grund, dass heutige Systeme bei monophonen Audiosignalen beachtliche 70-80% case2001, 264 Treffergenauigkeit bezüglich Notenerkennung erzielen, hingegen das Ergebnis bei polyphonen Musiksignalen auf Grund der hohen Fehlerquote meist unbrauchbar ist. |
(empty) |