Besonderheiten der Multimedia Synchronisation
PU separatorWechsel zu LOD1.Wechsel zu LOD3
Einleitung
Die folgenden Abschnitte beschäftigen sich mit den Besonderheiten zeitlicher Relationen zeitunabhängiger und zeitabhängiger Informationseinheiten im Zusammenhang mitMultimediasystemen. Weil diese zeitlichen Zusammenhänge bislang nur dem Bereich der dezidierten Kombination von Video und Audio bekannt waren, bedeutet dies, dass sie aus dem Gebiet von NICHT-Multimediasystemen entstammen. Um Ton und Bild beim Empfänger einer Fernsehübertragung synchronisiert darzustellen, werden die dafür benötigten Signale imMultiplex-Verfahren gemeinsam übertragen. Dabei wirkt sich eine Verzögerung eines Kanals (Ton oder Bild) immer auf beide Kanäle aus, was zur Folge hat, dass die Gesamtübertragung synchron bleibt. Auch die Kommunikation von Datenströmen auf Rechnernetzen sollte nicht außer Acht gelassen werden. Dabei können die unterschiedlichen Medien Verbindungen mit unterschiedlicher Dienstgüte ( QoS) eingehen. Bisher existieren nur einige wenige Konzepte und Prototypen, die mehrere zeitunabhängige und zeitabhängige Medien gleichzeitig verarbeiten und diese Medien auch noch über ein Rechnernetz übertragen können. Somit kommt der Definition von Synchronisationsbeziehungen und deren Realisierung im Kontext von Audio, Video und den unterschiedlichsten zeitunabhängigen Medien in einer vernetzten Umgebung von Arbeitsplatzrechnern eine große Bedeutung zu. Die erforderlichen Synchronisationsanforderungen werden durch die menschliche Wahrnehmung festgelegt und lassen sich in die Harte- und Weiche Synchronisation einteilen.
PU separatorWechsel zu LOD1.Wechsel zu LOD3
Harte Synchronisation
Die harte Synchronisation zweier zeitabhängiger Medien, lässt sich dadurch kennzeichnen, dass zwischen zeitabhängigen Medien, die aus einer Sequenz aus Informationseinheiten bestehen (LDU's), eine exakte Übereinstimmung gegeben sein sollte. Die erforderlichen Zeitschranken für eineSynchronisationsind jedoch nicht so bewegungslos wie man nun annehmen könnte. Der Grund dafür ist die endliche Verarbeitungsgeschwindigkeit von Computern. Der Wechsel von einem Multimediaobjekt auf ein anderes ruft immer eine zeitliche Verzögerung hervor. Da diese Verzögerung jedoch auf der konzeptuellen Ebene verschwindet und der primäre Empfänger der Daten der Mensch ist, der diese Verzögerung ohne Messinstrumente nicht feststellen kann, wird dieser Zeitunterschied vernachlässigt [s] .
PU separatorWechsel zu LOD1.Wechsel zu LOD3
Weiche Synchronisation
Zwei zeitabhängige Medienobjekte können entweder synchronisiert oder nicht synchronisiert sein. Diese Betrachtungsweise lässt jedoch den Aspekt der weichen Synchronisation total außer Acht. Diese beschäftigt sich nämlich mit der maximalen für einen Menschen tolerierbaren zeitlichen Verzögerung (Versatz;skew) eines Mediums. So haben Untersuchungen ergeben, dass bspw. eine Synchronisation zwischen Text und Video (z.B. Film mit Untertiteln) nach flexiblen Grenzen definiert ist. Dabei hat eine Schwankung von bis zu 50 ms keine Bedeutung. Der tolerierbare Versatz hängt von der Länge des Textes und der Dauer der darzustellenden Szene ab. Als ein Richtwert kann 250 ms angegeben werden. Durch die Einführung der weichen Synchronisation ist jetzt nicht nur eine JA/NEIN-Klassifikation möglich. Jetzt kann die Synchronisationsgüte durch die Attribute seht gut, gut, akzeptabel und nicht akzeptabel gekennzeichnet werden [s] .
Wenn zwei Multimediaobjekte der gleichen Länge gleichzeitig ausgeführt werden, kann es passieren, dass eines der beiden ins Stocken gerät. Bei der weichen Synchronisation, die im eigentlichen Sinn keineSynchronisationdarstellt, würde ein Medienobjekt vor dem andern fertig sein. Um dieses Szenario zu verhindern, kann man sich bei der harten Synchronisation mit zwei Möglichkeiten helfen. Als Annahme für die beiden Möglichkeiten, haben wir jeweils ein Audio- und ein Videoobjekt gleicher Länge vorliegen. Das Videoobjekt kommt während der Wiedergabe ins Stocken, wogegen das Audioobjekt durchläuft [s] .
Abbildung Darstellung der möglichen Synchronisationsarten zwischen Audio und Video
Darstellung der möglichen Synchronisationsarten zwischen Audio und Video
block separator
Erklärung
A: Videoobjekt und Audioobjekt laufen bis zum Ende ohne Störungen durch.
B: Das Videoobjekt kommt während der Wiedergabe ins Stocken, wogegen das Audioobjekt durchläuft.
C: Das Audioobjekt wird gestoppt wenn das Videoobjekt in Verspätung gerät.
D: Es müssen einige Frames aus dem Videoobjekt wegelassen werden, bis Ton und Bild wieder synchron oder innerhalb der Versatzgrenzen laufen.

block separator
PU separatorWechsel zu LOD1.Wechsel zu LOD3
Dienstgüteanforderungen für dieSynchronisation zweier Medienobjekte
Der Begriff der Dienstgüte kann wie folgt definiert werden:
block separator
Definition
Unter BegriffDienstgüte( QoS) versteht man alle Verfahren, die den Datenfluss inLAN's undWAN's so beeinflussen, dass der Dienst mit einer festgelegten Qualität beim Empfänger ankommt. Es handelt sich also um die Charakterisierung eines Dienstes, der für den Nutzer unmittelbar »sichtbar« ist und dessen Qualität er messen kann [s] .

block separator
Das Messen der Qualität, kann bei der Synchronisation zweier Medienobjekte durch den maximal duldbaren Versatz ausgedrückt werden. Da das Empfinden der Menschen jedoch unterschiedlich ist, hat man dazu eine Reihe unterschiedlicher Untersuchungen durchgeführt. Eine dieser wird im folgenden Teil näher beschrieben.
PU separatorWechsel zu LOD1.Wechsel zu LOD3
Lippensynchronisation
Die Lippensynchronisation beschreibt grundsätzlich die Synchronisation zwischen Audio- und Videostrom. In unserem speziellen Fall wurde die Synchronisation eines sprechenden Menschen betrachtet. Dabei wurden folgende Haupteinflussfaktoren herausgefunden [s] :
Video
  • Wie ist der Hintergrund beschaffen? Gibt es Bewegung im Hintergrund oder steht der Sprecher vor einer einfärbigen Wand?
  • In welcher Auflösung sieht die Versuchsperson den Sprecher (hoch auflösender Monitor /oder alter S/W Fernsehapparat)?
  • Welche Ansicht wurde für den Sprecher gewählt (Kopf-, Schulter- oder Körperansicht)?
Abbildung Kopf-, Schulter- und Körperansicht
Kopf-, Schulter- und Körperansicht
Audio
  • Inhaltliche Faktoren d.h. was wird gesprochen
  • Hintergrundgeräusche und ?musik
  • Sprache und Artikulation
Abbildung Akzeptanz bei der Lippensynchronisation
Akzeptanz bei der Lippensynchronisation
block separator
Erklärung
AUTO
Grafik: Eine zeitliche Verschiebung zwischen Audio- und Videostrom sollte eine Grenze von 160 ms nicht überschreiten. Optimal wäre, wenn die Grenze bei 80 ms liegen würde. Eine Verschiebung ist nur deshalb möglich, weil der Mensch daran gewöhnt ist, Bild und Ton etwas versetzt wahrzunehmen. Der Grund dafür sind die unterschiedlichen Geschwindigkeiten für Schall und Licht. Aus diesem Grund ist eine Verschiebung, Audio hinter Video, eher annehmbar als umgekehrt. Wichtig dabei ist, dass der Audiostrom kontinuierlich fortgesetzt wird, während der Videostrom in der Qualität auf ein Maß von 10 fps (Frames pro Sekunde) gesenkt werden kann. Daher erhält der Audiostrom bei der Interstromsynchronisation auch eine höhere Priorität. Die obige Abbildung zeigt drei Kurvenverläufe. Jede Kurve stellt eine andere Ansicht des Sprechers (Kopf-, Schulter-, Körperansicht) dar. Die Prozentzahlen geben an, wie viel Prozent der Probanden einen bestimmten Versatz, gemessen in ms, bemerkt haben. Z.B. haben 100% der Probanden, bei der Körperansicht, einen Versatz von -140 ms bemerkt [s] .

block separator
Die folgende Tabelle ( [s] ) zeigt Dienstgüteanforderungen für die Synchronisation verschiedener Medien. Die Werte wurden aus mehreren Experimenten ermittelt.
Medium Modus, Applikation QoS
Video Animation korreliert +/- 120 ms
Audio Lippensynchronisation +/- 80 ms
Bild Überlagerung +/- 240 ms
Text Überlagerung +/- 240 ms
Zeiger Video hat Beziehung zu Gezeigtem -500 ms/+820 ms
Audio Animation Ereignis-korreliert +/- 80 ms
Audio eng gekoppelt (Stereo) +/- 11 µs
schwach gekoppelt (Dialogmodus mit vielen Teilnehmern) +/- 120 ms
schwach gekoppelt (Hintergrundmusikstück) +/- 500 ms
Bild eng gekoppelt (Musik mit Noten) +/- 5 ms
schwach gekoppelt (Diashow) +/- 500 ms
Text Textanmerkungen +/- 240 ms
Zeiger Audio hat Beziehung zu Gezeigtem -500 ms/+750 ms

PU separator
Klaus Kanzian (kkanzian@edu.uni-klu.ac.at)
IAS, Universität Klagenfurt