Current Page:	Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m06 » Learning Units » Unit ID: 1_1_03
Last Modified:	Tuesday, 2015-05-05 - 08:09:01

Tools:	Validate — Preview XML Preview HTML Preview PDF
Alternative:	Printable HTML

Title:	MMDBMS Indizierung
Abstract:	Diese Lerneinheit befasst sich mit Indizierung in einer Multimediadatenbank. Erst wird auf die Indizierung von Audio und Video näher eingegangen. Dann folgt ein Beispiel einer Bildindizierung.

Status:	Review II: done.	Version:	8.0
History:	Review eingearbeitet, Bib OK Acronyme, Absätze, Wordanfürhungszeichen done. Review von Prof. Kosch eingearbeitet. auf unbekannte Character gecheckt

Author 1:	Harald Kosch	E-Mail:	harald.kosch@itec.uni-klu.ac.at
Author 2:	(empty)	E-Mail:	(empty)
Author 3:	(empty)	E-Mail:	(empty)
Author 4:	(empty)	E-Mail:	(empty)
Author 5:	(empty)	E-Mail:	(empty)
Organization:	Universität Klagenfurt - Institut für Informatik-Systeme

Indizierung in MM-Datenbanken

1

MMDBMS Indizierung

Erinnerung: Indizierungs- und Retrieval Systeme.
Indizierung = zuordnen oder extrahieren von Merkmalen, die eine inhaltsbasierte Abfrage ermöglichen.
Dies geschieht meist nur auf low-level Eigenschaften. Das sind jene Eigenschaften, die i.R. automatisch aus den Daten extrahiert werden (z.B.: Farbe, Form).
Segmentierung: Erkennung von Retrieval-Einheiten (z.B.: Vorder- oder Hintergrund)
- Zwei Hauptansätze:
  - manuell:
    - Segmentierung
    - Indizierung = benennen von Objekten und ihre Beziehungen mit Schlüsselbegriffen (z.B. in natürlicher Sprache)
  - automatische Analyse:
    - Identifizierung mathematischer Charakteristika der Inhalte
    - Verschiedene Techniken, abhängig vom Typ der Multimediaherkunft (Bild, Text, Video oder Audio)
    - Eventuell manuelle Korrektur

Indizierung von Multimedia und Eigenschaften

Multimedia Objekt: typischerweise repräsentiert als eine Zusammenstellung von Eigenschaften (z.B. als Signaturvektor)
- Eigenschaften können gewichtet werden (Ausdruck von Unsicherheit oder Bedeutung des Werts)
- Eigenschaften müssen in den semantischen Inhalt eingebettet werden.

Indizierung von Bildern

Automatische Indizierung von Bildern:
- Aufteilung in homogene Segmente:
  - homogene Prädikate definieren die Bedingungen für eine automatische Gruppierung der Zellen
  - z.B. In einem Farbbild: Benachbarte Zellen, deren Pixelwerte ähnlich sind, werden zu einem Segment gruppiert.
- Indizierung:
  - Erkennung von Objekten und einfachen Mustern,
  - Erkennen von low-level Eigenschaften: Farbhistogramme, Texturen, Formen (z.B. Haus), Position
  - Erkennen von high-level Eigenschaften: z.B.: Objekte und Personen mit deren Namen

Audio-Indizierung

Automatische Indizierung von Audio:
- Aufteilung in Sequenzen (= grundlegende Einheit für Retrieval): oft manuell
- Indizierung:
  - Spracherkennung und Indizierung des daraus resultierenden Textes
  - Akustische Analyse (z.B., Töne, Musik, Lieder): Melodie Erkennung: beachten von Kodierungs-, Intervall- und Rhythmus Erkennung und Akkord Informationen
    - z.B. Extraktion der Schlüssel-Melodie.

Video-Indizierung

Automatische Indizierung von Videos:
- Segment: grundlegende Einheit für Retrieval
  Objekte und Aktivitäten werden in jedem Videosegment gekennzeichnet und können zur Indizierung des Segments genutzt werden
- Aufteilung: Erkennung von Video Shots: Kamera Bewegungen
  - Abgrenzung im Tonmaterial (z.B. andere Melodie der Musik, Änderungen beim Sprecher)
  - heuristische Regeln, basierend auf Wissen über:
    - Typ-spezifische schematische Struktur vom Video (z.B. Dokumentation, Sport)
    - bestimmte Stichwörter: Auftritt einer Schlüsselperson in Nachrichten

Indizierung in einer Multimediadatenbank

Die folgende Graphik zeigt die Stellung der Indizierung in einer Multimedia Datenbank:

Auto PC

Indizierung einer Multimediadatenbank

Auto PDA_Phone

Indizierung einer Multimediadatenbank

2

MMDBMS Indizierung

In traditionellen Datenbanken werden in den meisten Fällen Schlüsselwörter zur Indizierung verwendet. Indizierung ist hier die Erstellung einer Indextabelle für Daten oder allgemein die Kennzeichnung von Daten bzw. Datensätzen nach bestimmten Kriterien. Der Index erfasst jeden Datensatz mittels eines Schlüssels und gibt seine Adresse an.

Die Indizierung in MM-Datenbanken ist inhaltsbasiert. Das bedeutet, dass die Daten zur Indizierung direkt aus den Multimediadaten extrahiert werden. Diese Merkmale sind meist (unglücklicherweise) im low-level Bereich, d.h.: Farbe, Form, Textur, Bewegung, etc. Aber auch high-level Merkmale(=semantische Inhalte), können für die Indizierung herangezogen werden. Um eine genauere Repräsentation zu ermöglichen, werden die Multimedia Daten in Segmente aufgeteilt und bekommen aussagekräftige Attribute für den gesamten Bereich.

Die für die Indizierung relevanten Daten können entweder manuell oder durch eine automatische Analyse extrahiert werden. Beim manuellen Indizieren, wird erst eine Segmentierung vorgenommen. Die Objekte und ihre Beziehungen werden als solche erkannt und mit Schlüsselbegriffen versehen. Die automatische Analyse sucht nach mathematischen Charakteristika in den Inhalten. Hierbei werden je nach Typ (Bild, Text, Video oder Audio) verschiedenste Techniken angewandt. Die automatische Indizierung kann auch manuell korrigiert werden.

Indizierung von Multimedia und Eigenschaften

Ein Multimediaobjekt besteht aus verschiedenen Medientypen (Bild, Video, Audio,…) oder auch aus weiteren Multimediaobjekten. Repräsentiert wird es als eine Zusammenstellung von Eigenschaften, beispielsweise durch einen Signaturvektor. In solchen Vektoren werden verschiedenste Attribute abgespeichert, für ein Bild z.B.: Farben, Textur, Struktur, etc.
Die Eigenschaften können aber auch je nach Bedeutung oder Ausdruck von Unsicherheit gewichtet werden. Sie müssen außerdem in den semantischen Inhalt eingebettet werden, um bei einer Suche zufriedenstellende Ergebnisse zu erzielen.
Des Weiteren kann ein Multimediaobjekt auch in einem Indexbaum abgespeichert werden.

Indizierung von Bildern

Die Indizierung von Bildern erfolgt in der Regel automatisch. Als erster Schritt wird das Bild in Bereiche eingeteilt, die gemeinsame low-level Eigenschaften, wie Farbe oder Textur aufzeigen. Die Aufteilung erfolgt mit homogenen Prädikaten, welche die Bedingungen für eine solche Segmentierung definieren. Bei einem Farbbild wird die Segmentierung bezüglich der Farbe so vorgenommen: Es werden benachbarte Zellen, deren Pixelwerte ähnlich sind, gesucht. Diese werden dann zu einem Segment gruppiert und es kann ihnen eine Eigenschaft, in diesem Fall die Farbe, zugewiesen werden.

Bei der Indizierung werden dann low-level Eigenschaften erkannt und zugewiesen (z.B. Formen: Haus, Auto; Farben). Das Erkennen von high-level Eigenschaften ist schon wesentlich komplizierter, da sie den semantischen Inhalt betreffen. Daher wird die Indizierung von high-level Eigenschaften oft manuell durchgeführt bzw. die automatische Erkennung manuell korrigiert (semi-automatische Indizierung).

Audio-Indizierung

Bei der Indizierung von Audio-Daten wird auch zunächst der Strom in eigene, homogene Bereiche aufgeteilt (z.B. Klangfarbe, Phrasen, etc.). Diese Segmentierung in Sequenzen wird jedoch oft manuell durchgeführt. Die Indizierung selbst erfolgt dann wieder automatisch.

Bei der Segmentierung unterscheidet man zwischen sprachbasierten und melodiebasierten Audio-Daten:

Sequenzen mit Sprache durchlaufen eine Spracherkennung und die erkannten Textsegmente werden indiziert (vgl. Retrieval von indiziertem Text).
Für nicht sprachbasierte Signale wird eine akustische Analyse durchgeführt, deren Ergebnisse in eine Zeichenkette übersetzt werden. Die Analyse umfasst Töne, Musik und Lieder, deren Kodierung, Intervall, Rhythmus und Akkorde beobachtet werden. Als Ergebnis erhält man beispielsweise die extrahierte Schlüsselmelodie.

Video-Indizierung

Die Video-Indizierung beginnt damit, das Video in Teilbereiche (Videosegmente) zu segmentieren. Objekte und Aktivitäten werden in den einzelnen Segmenten gekennzeichnet und können dann für die Indizierung verwendet werden.

Die Videosegmentierung beruht häufig auf der Erkennung von so genannten Videoshots. Videoshots sind kurze Sequenzen von zusammenhängenden Video-Frames, die eine gemeinsame Eigenschaft haben, wie z.B.: die gleiche Szene beschreiben, Präsenz eines bestimmten Objektes oder vom Benutzer als Shot ausgewählt. Aber auch Kamera Bewegungen können für die Aufteilung herangezogen werden. Außerdem kann man auch eine Abgrenzung durch Eigenschaften des Tons (z.B.: andere Melodie, anderer Sprecher) herausfinden.

Weiterführende Videosegmentierung kann auch durch heuristische Regeln erfolgen, die durch die Typ-spezifische schematische Struktur des Videos (z.B.: Sport, Dokumentation) oder durch bestimmte Stichwörter ihre Anwendung finden. Bei den Stichwörtern löst z.B. der Auftritt einer Schlüsselperson eine Aufteilung in ein neues Segment aus.

Indizierung in einer Multimediadatenbank

Die folgende Graphik zeigt die Stellung der Indizierung in einer Multimedia Datenbank:

Auto PC

Indizierung einer Multimediadatenbank

Auto PDA_Phone

Indizierung einer Multimediadatenbank

Auto

Wie die Graphik zeigt, werden die gegebenen Multimedia Daten nach Extraktion ihrer Eigenschaften in die Datenbank gespeichert. Hierfür werden, je nach Typ, verschiedene Darstellungen benötigt (z.B.: als Binary Large Object (BLOB407) für Bilder). Wenn die Multimedia Daten in der Datenbank sind, kann der Benutzer über eine Schnittstelle Abfragen mit Hilfe von Ähnlichkeitsmetriken an die Datenbank stellen. Das Ergebnis wird dann wieder an der Schnittstelle für den Benutzer bereitgestellt.

Bild Beispiel

1

Indizierung von Schmetterlingen

Wir wollen Benutzern, die kein Expertenwissen haben, ermöglichen, für einen gesehenen Schmetterling ein paar mögliche Arten (mit Hilfe des Aussehens des gesehenen Schmetterlings) herauszufinden.

Bild-Eigenschaftsbeschreibung

Das Aussehen:
- Farbe, Textur, Form

Auto PC

Eigenschaftsbeschreibungen an Hand von Schmetterlingen

Auto PDA_Phone

Eigenschaftsbeschreibungen an Hand von Schmetterlingen

Auto

Eigenschaftsbeschreibung:
- Wie Metadaten, die das Äußere dieses Schmetterlings beschreiben
- Die Eigenschaftsbeschreibung besteht aus ein paar Eigenschafts-Deskriptoren.
Eigenschafts-Deskriptor:
- Ein ( "Eigenschaftswert" , "Grad der Übereinstimmung" ) Paar.

Auto PC

Schmetterling

Auto PDA_Phone

Schmetterling

Wertepaare für obiges Bild, die in Eigenschafts-Deskriptoren gespeichert werden.

Eigen- schaftstyp	Eigenschafts Wert	Grad der Übereinstimmung
Farbe	gemischt_mit_schwarz_und_orange	52/57
	orange_gelb	12/42
	orange_rot	3/38
Textur	viele_Punkte	58/62
	vordere_Hälfte_andere_Farbe	27/33
	horizontale_Streifen	41/60
	Kante_in_anderer_Farbe	10/74
Form	Welle	98/110

Farbe

Farbe	Eigenschaftswert
	schwarz
	braun
	hellbraun
	orange_rot
	orange_gelb
	gelb
	grün
	blau
	lila
	grau
	weiß
	gemischt_schwarz_weiß
	gemischt_schwarz_gelb
	gemischt_schwarz_orange
	gemischt_schwarz_blau
	gemischt_schwarz_rot
	gemischt_hellbraun_weiß
	gemischt_viele_Farben

Textur

Abbildung	Eigenschaftswert
	vertikale_Streifen
	horizontale_Streifen
	viele_Streifen
	zwei_Linien
	viele_Linien
	stark_geadert
	Gitter
	Augen
	wenige_Punkte
	einige_Punkte
	viele_Punkte
	Farbblöcke
	gemasert
	Kanten_in_anderer_Farbe
	sternförmig
	andere_Farbe_in_vorderer_Hälfte

Form

Abbildung	Eigenschaftswert
	Schwalbenähnlich
	Schwalbenschwanz
	gebrochen
	Welle
	Blatt_ähnlich
	Falter_ähnlich
	mit_kleinen_Enden

2

Indizierung von Schmetterlingen

Die Indizierung eines Bildes wird nun anhand eines Schmetterlings beispielhaft erklärt: Ein Benutzer ohne Expertenwissen hat einen Schmetterling gesehen. Er will nun herausfinden, welche Art er gesehen hat. Anhand des Aussehens können dann einige in Frage kommenden Arten dem Benutzer gezeigt werden.

Auto PC

Eigenschaftsbeschreibungen an Hand von Schmetterlingen

Auto PDA_Phone

Eigenschaftsbeschreibungen an Hand von Schmetterlingen

Auto

Zunächst erfolgt eine Eigenschaftsbeschreibung. Es werden Metadaten gefunden, die das Äußere dieses Schmetterlings beschreiben, dazu zählen Farbe, Form und Textur. Diese Eigenschaften werden in Eigenschafts-Deskriptoren gespeichert. Ein Deskriptor besteht aus einem Wertepaar: der Eigenschaftswert (z.B. welche Farbe) und der Grad der Übereinstimmung.

Auto PC

Schmetterling

Auto PDA_Phone

Schmetterling

Wertepaare für obiges Bild, die in Eigenschafts-Deskriptoren gespeichert werden.

Eigen- schaftstyp	Eigenschafts Wert	Grad der Übereinstimmung
Farbe	gemischt_mit_schwarz_und_orange	52/57
	orange_gelb	12/42
	orange_rot	3/38
Textur	viele_Punkte	58/62
	vordere_Hälfte_andere_Farbe	27/33
	horizontale_Streifen	41/60
	Kante_in_anderer_Farbe	10/74
Form	Welle	98/110

Auto

Diese Tabelle enthält die Wertepaare für das Beispielbild, die in Eigenschafts-Deskriptoren gespeichert werden.

Farbe

Farbe	Eigenschaftswert
	schwarz
	braun
	hellbraun
	orange_rot
	orange_gelb
	gelb
	grün
	blau
	lila
	grau
	weiß
	gemischt_schwarz_weiß
	gemischt_schwarz_gelb
	gemischt_schwarz_orange
	gemischt_schwarz_blau
	gemischt_schwarz_rot
	gemischt_hellbraun_weiß
	gemischt_viele_Farben

Auto

Wie man in der Tabelle sieht, ist jede Farbe genau spezifiziert. Weicht die Farbe des Schmetterlings ein wenig von der gegebenen Farbe ab, vermindert das den Grad der Übereinstimmung (z.B. dunkelgrün statt grün).

Textur

Abbildung	Eigenschaftswert
	vertikale_Streifen
	horizontale_Streifen
	viele_Streifen
	zwei_Linien
	viele_Linien
	stark_geadert
	Gitter
	Augen
	wenige_Punkte
	einige_Punkte
	viele_Punkte
	Farbblöcke
	gemasert
	Kanten_in_anderer_Farbe
	sternförmig
	andere_Farbe_in_vorderer_Hälfte

Auto

Auch bei der Textur gibt es unterschiedliche Eigenschaftswerte, die, je nach Übereinstimmung, gewichtet in den Eigenschafts-Deskriptor aufgenommen werden.

Form

Abbildung	Eigenschaftswert
	Schwalbenähnlich
	Schwalbenschwanz
	gebrochen
	Welle
	Blatt_ähnlich
	Falter_ähnlich
	mit_kleinen_Enden

Auto

Und zum Schluss wird die Form des gegebenen Schmetterlings mit den gespeicherten Formen verglichen und die Übereinstimmung in Form eines Deskriptors gespeichert.

Bbiliographie

2

Auto

Lu99

Kos03

(empty)