Current Page: | Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m04 » Learning Units » Unit ID: 02_03 |
---|---|
Last Modified: | Tuesday, 2015-05-05 - 08:09:06 |
Tools: | Validate — Preview XML Preview HTML Preview PDF |
Alternative: | Printable HTML |
Title: | Transformationskodierung | ||
---|---|---|---|
Abstract: | Die Transformationskodierung ist ein wichtiges Werkzeug für all jene Komprimierungsalgorithmen, die zur Datenreduktion wissenschaftliche Kenntnisse über perzeptuelle Eigenschaften unserer Sinnesorgane nutzen. So weiß man, dass unser Auge gegenüber bestimmten Kontrasten besonders empfindlich ist, andere wieder werden von unserem Auge nicht so genau oder überhaupt nicht wahrgenommen . Unser Gehör wiederum nimmt verschiedene Töne bzw Tonkombinationen unterschiedlich genau wahr. Diese Lerneinheit demonstriert mit Hilfe von Bild- und Hörbeispielen die Effektivität von Transformationsalgorithmen.Neben der Erläuterung der grundlegenden Theorie, die hinter einer Transformaitonskodierung steckt, werden exemplarisch einige bekannte Transformationen kurz vorgestellt. | ||
Status: | Final | Version: | 2004-11-29 |
History: |
2004-11-29 (Thomas migl): Text bei MDCT hinzugefügt 2004-11-03 (Thomas Migl): Akronyme hinzugefügt 2004-09-17 (Thomas Migl): restliche Abb. hinzugefügt 2004-09-15 (Thomas Migl). falsche Zahlenangabe ausgebessert 2004-09-13 (Thomas Migl): Abbildung ausgetauscht 2004-08-16 (Robert Fuchs): Checked, fixed and exported for Review #2. 2004-07-30 (Thomas Migl): ABGESCHLOSSEN:TextLOD1 +LOD2, formeln, Abstract; Hörbeispiele mit migl/public verlinkt - NOCH ZU MACHEN: Abb PDA ; 2 Links auf Modul1 müssen erst gelegt werden (gekennzeichnet durch ????) 2004-07-30 (Robert Fuchs): Bugfixes for Validate. 2004-07-30 (Thomas Migl): Abb- finalPC importiert 2004-07-29 (Robert Fuchs): Added formulas; some minor tagging corrections. 2004-07-19 (Thomas Migl): TextLOD1 +LOD2 formeln komplett erstellt, Hörbeispiele mit migl/public verlinkt; 2 Links auf Modul1 muss ersrt gelegt werden; gekennzeichnet durch ???? 2004-07-14 (Thomas Migl): Angelegt und tagging start. |
Author 1: | Thomas Migl | E-Mail: | migl@ims.tuwien.ac.at |
---|---|---|---|
Author 2: | (empty) | E-Mail: | (empty) |
Author 3: | (empty) | E-Mail: | (empty) |
Author 4: | (empty) | E-Mail: | (empty) |
Author 5: | (empty) | E-Mail: | (empty) |
Organization: | Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/ |
Motivation effe1998, 171Wozu Transformationskodierung?
Die zwei Bereiche der Transformationskodierung
2Wozu Transformationskodierung?Die Transformationskodierung ist ein wichtiges Werkzeug für all jene Komprimierungsalgorithmen, die zur Datenreduktion wissenschaftliche Kenntnisse über perzeptuelle Eigenschaften unserer Sinnesorgane nutzen. So weiß man, dass unser Auge gegenüber bestimmten Kontrasten besonders empfindlich ist, andere wieder werden von unserem Auge nicht so genau oder überhaupt nicht wahrgenommen (siehe Grundlagen der perzeptuellen Bildkodierung). Unser Gehör wiederum nimmt verschiedene Töne bzw Tonkombinationen unterschiedlich genau wahr (siehe Grundlagen der perzeptuellen Audiokodierung). Es sind nun oft die üblichen Darstellungen von Bild- und Audiodaten nicht besonders geeignet, diese Kenntnisse in effektive Datenreduktion ummünzen zu können. Es muss daher das Signal in einem geeigneten mathematischen Bereich dargestellt werden. Diese alternative Darstellung eines Signals (Bild oder Audio) erreicht man durch eine mathematische Transformation. Es wird dabei vom Originalbereich in den transformierten Bereich transformiert. Definition des TransformationsbegriffesTransformation bewirkt eine alternative Darstellung von ein und derselben Information. Eine Repräsentation einer Information geschieht im Originalbereich, die zweite im transformierten Bereich. Dabei muss gelten: Eine Änderung in einem Bereich bewirkt automatisch eine dementsprechende Änderung im anderen Bereich. Die zwei Bereiche der TransformationskodierungOriginalbereich für multimedialer DatenDer Originalbereich ist jener Bereich, wo multimediale Informationen entweder gesehen oder gehört werden können.
Transformierter Bereich für multimedialer DatenDer transformierte Bereich ist für die Komprimierungsalgorithmen interessant.
Reversibilität der Transformation1Transformation und ihre Inverse PCTransformation und ihre Inverse PDA_Phone2Transformation und ihre Inverse PCIm Originalbereich ist die multimediale Information durch Werte aufbereitet, mit deren Hilfe man ein Bild oder ein Tondokument direkt darstellen kann. Im transformierten Bereich hingegen kann ein Benutzer mit den Werten nicht direkt etwas anfangen. Um die Daten zu sehen oder zu hören, müssen sie zuerst wieder in den Originalbereich rücktransformiert werden. Es muss daher eine Transformation derart gestaltet sein, dass das Signal aus dem transformierten Raum wieder verlustlos in den Originalraum rück transformiert werden kann. Solche Rücktransformation bezeichnet man als Inverse Transformation. Transformation und ihre Inverse PDA_PhoneIm Originalbereich ist die multimediale Information durch Werte aufbereitet, mit deren Hilfe man ein Bild oder ein Tondokument direkt darstellen kann. Im transformierten Bereich hingegen kann ein Benutzer mit den Werten nicht direkt etwas anfangen. Um die Daten zu sehen oder zu hören, müssen sie zuerst wieder in den Originalbereich rücktransformiert werden. Es muss daher eine Transformation derart gestaltet sein, dass das Signal aus dem transformierten Raum wieder verlustlos in den Originalraum rück transformiert werden kann. Solche Rücktransformation bezeichnet man als Inverse Transformation. Transformationkodierung zur Datenreduktion1Abbildung: Transformationkodierung zur Datenreduktion PCAbbildung: Transformationkodierung zur Datenreduktion PDA_Phone2Abbildung: Transformationkodierung zur Datenreduktion PCAbbildung: Transformationkodierung zur Datenreduktion PDA_PhoneDatenreduktion durch TransformationkodierungIm Diagramm ist die prinzipielle Arbeitstechnik eines auf Transformationskodierung basierenden Algorithmus dargestellt.
Transformationskodierung bei Bildkompression1Originalbereich in einem digitalern BildKompression im Originalbereich PC
Kompression im Originalbereich PDA_Phone
Kompression im transformierten Bereich all
2Originalbereich in einem digitalern BildDer Originalbereich eines digitalen Bildes ist der Ortsbereich. dort wird es durch ein zweidimensionales Gitter von Pixeln dargestellt. Jedes Pixel gibt den Grauwert beziehungsweise den Farbwert am entsprechenden Ort an. Die Größe der Bilddatei ergibt sich einerseits aus der Bitanzahl, die zur Kodierung eines Pixelwertes verwendet wird, die so genannte Pixelwortlänge, andererseits aus der Gesamtanzahl der Pixel.
Kompression im OriginalbereichDatenreduktion kann man erzielen:
Bildbeispiel Komprimierung im Originalbereich PC
Bildbeispiel Komprimierung im Originalbereich PDA_Phone
Transformierter Bereich in einem digitalen BildIm transformierten Bereich wird das Bild durch so genannte Frequenzkoeffizienten dargestellt. Der DC 494 - Koeffizient beschreibt den mittleren Grau- beziehungsweise den mittleren Farbwert, Koeffizienten höherer Ordnung (-Wechselkomponenten) beschreiben Konturen, Ecken, Umrisse etc. in einem Bild. Kompression im transformiertem BereichIn diesem Darstellungsbereich kann man Datenreduktion erreichen, indem man Koeffizienten höherer Ordnung – diese stehen für scharfe Kanten, Umrisse etc - mit einer geringeren Genauigkeit kodiert (=Quantisierung). Auch diese Reduktion wird ab einer bestimmten Kompressionsrate sichtbar (weniger detailgetreue Darstellung des Bildes, vor allem eine Verminderung der Bildschärfe an scharfen Kanten), aber diese Artefakte sind im Vergleich zu jenen, hätte man im Originalbereich komprimiert, bedeutend weniger störend und treten erst bei einer höheren Kompressionsrate auf. Viele Bildkodierungstechniken, wie JPEG, JPEG2000 etc. arbeiten im transformierten Bereich. Kompression im Frequenzbereich all
Transformationskodierung bei Audiokompression1OriginalbereichKompression im Originalbereich
Hörbeispiel
Kompression im transformierten Bereich
Hörbeispiel
2Originalbereich eines digitalen AudiosignalsDer Originalbereich eines digitalen Audiosignals ist der Zeitbereich (siehe Modul1,“4.3 Digitalisierung von Audiosignalen“ ???? ). Es werden die in einem fixen Zeitabstand abgetasteten Amplitudenwerte angegeben. Die Größe der Datei ergibt sich aus der Bitzahl, die zur Kodierung eines Amplitudenwertes verwendet wird, andererseits aus der Anzahl der Amplitudenwerte pro Zeiteinheit. Kompression im OriginalbereichDatenreduktion kann man erzielen:
Hörbeispiel zur Datenreduktion im Originalbereich
Tranformierter Bereich eines digitalen AudiosignalsIn diesem Darstellungsbereich werden nicht mehr die Amplitudenwerte als Funktion der Zeit betrachtet. Vielmehr werden durch eine Transformation alle im Signal vorkommenden Töne (=Frequenzen) und deren Intensitäten angegeben. Kompression im transformierten BereichUnser Hörempfinden besitzt aus physio- und psychologischen Gründen starke spektrale Eigenschaften (siehe Grundlagen der perzeptuellen Audiokodierung). Wir können bestimmte Töne besser, andere wieder weniger gut hören. Auch das gleichzeitige Auftreten verschiedener Tönen wird von unserem Gehör unterschiedlich genau wahrgenommen. So kann in diesem transformierten Bereich viel an Information durch grobe Quantisierung entfernt werden, ohne dass unser Ohr diesen Informationsverlust hört. Viele Kodierungstechniken, wie MP3, AAC, AC-3 etc., arbeiten im transformiertem Bereich. Hörbeispiel zur Datenreduktion im transformierten BereichFür das folgende Beispiel wurde eine Audiodatei im Original- , die andere im transformiertem Bereich komprimiert. In beiden Fällen wurde eineKompression von 1:14 erzielt.
Diskrete Transformationen stru2002, ab 861allgemeine diskrete Transformation
Mathematische Darstellung der Diskreten Transformation... diskrete Transformation ... inverse Transformation Matrixschreibweisemit 2autoBei digitalen multimedialen Daten (Audio oder Bildsignale) handelt es sich ausschließlich um diskrete Signale. Das heißt, die Anzahl der im Originalbereich enthaltenen Werte ist eine endlich große, ganzzahlige Zahl. Für Bilddateien sind das Bildpunkte (pixel), für Audiodateien sind es Amplitudenwerte. allgemeine diskreteTransformationJede diskrete Transformation enthält einen Transformationskern. Durch diesen Kern werden die Werte des Originalbereiches mit den Werten des transformierten Bereiches in einen mathematisch eindeutigen Zusammenhang gebracht. Um eine eindeutige Rücktransformation zu gewährleisten, muss weiters gelten: Anzahl der Werte im Originalbereich = Anzahl der Werte im tranformierten Bereich Mathematische Darstellung der Diskreten Transformationmit
Mathematische Darstellung der inversen diskreten Transformationmit ...Kern der Rücktransformation Matrixschreibweise diskrete Transformationmit
Matrixschreibweise inverse Transformationmit Ein- und zweidimensionale Transformationen1Eindimensionale Transformation: AudiosignalZeitbereich - einzige Variable: Amplitudenwert als Funktion der Zeit PCZeitbereich - einzige Variable: Amplitudenwert als Funktion der Zeit PDA_PhoneTransformierter Bereich - einzige Variable: Frequenzkoeffizient als Funktion der Frequenz PCTransformierter Bereich - einzige Variable: Frequenzkoeffizient als Funktion der Frequenz PDA_PhoneZweidimensionale Transformation: Digitales Bild
2Eindimensionale TransformationenMit der oben angegebenen Gleichung können diskrete Funktionen mit einer Variablen transformiert werden. Eindimensionale Transformation: AudiosignalZeitbereichAmplituden Werte mit der Variable Zeit Abbildung: Zeitbereich - einzige Variable: Amplitudenwert als Funktion der Zeit PCAbbildung: Zeitbereich - einzige Variable: Amplitudenwert als Funktion der Zeit PDA_PhoneTransformierter BereichAmplitudenwerte mit der Variablen Frequenz
Abbildung: Transformierter Bereich - einzige Variable: Frequenzkoeffizient als Funktion der Frequenz PCAbbildung: Transformierter Bereich - einzige Variable: Frequenzkoeffizient als Funktion der Frequenz PDA_Phone
Zweidimensionale TransformationDigitale Bilder werden im Originalbereich durch ihre Pixelwerte dargestellt. Die Position jedes Pixels wird durch seine x-und y-Achse Komponenten .angegeben. Die Pixelwerte sind also von 2 Variablen abhängig. Zweidimensionale Transformation: Digitales BildOriginalbereichJedem Pixel ist ein bestimmter Wert zugeordnet ... ist der Helligkeitswert (oder Farbwert) des Pixels an der Position x,y. Transformierter Bereich
...Wert mit den Frequenzwerten u,v. Transformationen für die Praxis1Unterschiedliche Transformationen
Für Multimediale Dateien häufig verwendete Transformationen
2Unterschiedliche TransformationenEs wurden für die verschiedenen Anwendungen verschiedene Transformationen entwickelt. Sie leiten sich alle von der allgemeinen Darstellung der diskreten Transformation (und dessen Inversen) ab . Verschiedene Transformationen unterscheiden sich ausschließlich im Transformationskern. Für Multimediale Dateien häufig verwendete TransformationenDie Mutter aller Transformationen ist die Fouriertransformation. Die Mehrzahl der zur Audio - und Bildkomprimierung verwendeten Transformationen leiten sich von ihr ab. Die Fouriertransformation stellt immer das Frequenzspektrum einer Funktion dar. BildDCTFür die Bildkompression kommt im JPEG 29 Standard die DCT 242 (Der JPEG Standard und JPEG Bildvorbereitung) zum Einsatz. Sie ist eine auf Einfachheit optimierte Version der Fouriertransformation und ist besonders zur Approximation von Signalen mit relativ glattem Verlauf geeignet. Das macht sie ideal für die Bildkomprimierung. Durch die geringe Komplexität der Algorithmen ist gewährleistet, dass JPEG auch bei einfach aufgebauter Hardware (z.B. einfache digitale Fotokamera) implementiert werden kann. Wavelet TransformationDie Wavelettransformation wird im JPEG2000 Standard verwendet. Sie bringt gegenüber der DCT 242 eine deutlich bessere Bildqualität (siehe JPEG versus JPEG2000), stellt aber bezüglich Komplexität höhere Ansprüche. AudioFür die Audiokompression werden vorwiegend die Fast Fouriertransformation, und die MDCT 493 verwendet. (Siehe Fouriertransformation) Modifizierte DCT pere2002Die Modifizierte Diskrete Kosinustransformation spielt eine elementare Rolle bei Audioencodern wie mp3 und AAC. Es werden dabei nicht nur die Werte des soeben bearbeiteten Signalabschnittes (=Fenster) in die Frequenzanalyse mit einbezogen, sondern auch Werte der beiden unmittelbar benachbarten Signalabschnitte. Die MDCT arbeitet dabei mit einer 50 prozentigen Überlappung der Fenster. Vorteil MDCT für AudiokodierungEs entsteht keine Blockartefakte. Bei Verwendung einer gewöhnlichen DCT würde bei höheren Kompressionen die Blockartefakte als störenderTon hörbar werden. Fast FouriertransformationZur psychoakustischen Beurteilung (siehe Grundlagen der perzeptuellen Audiokodierung) des Frequenzbereiches eines Audisignals sind auch die Phaseninformationen der einzelnen Frequenzkomponenten wichtig. Diese werden bei der DCT allerdings nicht berücksichtigt. Daher kommt hier die FFT 417 zum Einsatz. Sie ist eine auf schnelle Rechenzeit optimierte Version der Fouriertransformation. Weitere Transformationen1Karhunen-Loeve Transformation (KLT)
Walsh Hadamard Transformation (WHT)
2Karhunen-Loeve Transformation KLT stru2002Die KLT wird auch als Hauptachsen Transformation bezeichnet
Walsh Hadamard WHT stru2002Die WHT ist im Vergleich zur DCT 242 zur Approximation von Signalen mit starken Signalanstiegen im Originalbereich optimiert. Starke Signalanstiege entsprechen in Bildern abrupte Grauwertänderungen (ein Pixel ist weiß, dass unmittelbar danebenliegende schwarz). In natürlichen Bildern sind solche Sprünge sehr selten. Das ist der Grund, dass die Entwickler von Bildkomprimierungsalgorithmen meist die DCT 242 der Walsh Hadamard Transformation vorziehen. |
(empty) |