Current Page:	Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m04 » Learning Units » Unit ID: 03_14
Last Modified:	Tuesday, 2015-05-05 - 08:09:08

Tools:	Validate — Preview XML Preview HTML Preview PDF
Alternative:	Printable HTML

Title:	MPEG-2 Audio/AAC
Abstract:	AAC steht für "Advanced Audio Coding" und wird im MPEG-2 Standard beschrieben. Die Besonderheiten von AAC sind seine modulare Aufbauweise, durch die eine große Flexibilität für die verschiedensten Anwendungen gewährleistet ist, und die Module selbst, die verantwortlich sind für die große Qualitätssteigerung gegenüber MP3.

Status:	Final for Review #2 - captions missing	Version:	2004-11-04
History:	2004-11-04 (Thomas Migl): Acro added 2004-10-14 (Thomas migl): pda Abb. hinzugefügt 2004-09-23 (thomas migl): Abb. explanations korrigiert 2004-09-17 (Thomas Migl): 1 pda Abbildung hinzugefügt 2004-09-09 (thomas Migl): Abb hinzugefügt, Überschriften geändert 2004-08-16 (Robert Fuchs): Checked, fixed and exported for Review #2. 2004-08-04 (Thomas Migl): in Greybox importiert, bis auf Abb. finalisiert 2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion. 2004-03-12 (Robert Fuchs): Fixed bugs in content tagging; nested list bug. 2004-03-11 (Thomas Migl): LOD1 Headers added 2004-03-05 (Thomas Migl): Abstract hinzugefügt 2004-03-05 (Robert Fuchs): Put sources into CorPU title where neccessary; added links. 2004-02-27 (HTMLContentTools): Replaced old numeric source refs by new alphanumeric ones. 2004-02-26 (Robert Fuchs) - Upgrade from old LU 440, version 2003-12-03. 2004-02-25 (HTMLContentTools) - Created skeleton page. 2003-12-03 (Robert Fuchs): Import von Version 2003-08-23 aus HTML Authoring Systeme v.1

Author 1:	Thomas Migl	E-Mail:	migl@ims.tuwien.ac.at
Author 2:	(empty)	E-Mail:	(empty)
Author 3:	(empty)	E-Mail:	(empty)
Author 4:	(empty)	E-Mail:	(empty)
Author 5:	(empty)	E-Mail:	(empty)
Organization:	Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

AAC Einführung watk2001, 316

1

auto

AAC - Advanced Audio Coding
- Audiostandard von MPEG-2
- nicht rückwärtskompatibel zu MPEG-1/Audio
- 30% bessere Performance als MP3

AAC im Vergleich zu MP3

Von MP3 übernommen wurden

die nichtlineare Quantisierung (siehe digitale Audiotechnik)
in einer verbesserten Form die Huffmankodierung
die Regelschleife zur Datenratensteuerung
in einer modifizierter Form die Skalierung
Psychoakustisches Modell - Weiterentwicklung von Modell 2

Neu eingeführt wurden

MDCT 493 Filterbank
TNS
Tools zur flexibleren Joint Stereo Kodierung
Prädiktionstool

Zusätzliche Features im MPEG-2 Standard

Multikanal Eingang
Mehrsprachigkeit
Hohe Kompressionsrate
Erweiterte Anzahl an erlaubten Abtastraten
Möglichkeit von verlustloser Komprimierung

2

auto

AAC steht für Advanced Audio Coding, und wird im MPEG-2 Standard, Teil 7 beschrieben. Zielsetzung war die Entwicklung eines Audiokomprimierungstandards, der höchstmögliche Performance bezüglich Klangqualität und Kompression bietet. Um ein optimales Ergebnis zu erzielen, wurde keine Rücksicht auf Rückwärtskompatibilität bezüglich des MPEG-1 Audiostandards genommen. So konnten zwar geeignete Teile von MP3 übernommen werden, andere aber wieder durch verbesserte Tools ersetzt werden.

AAC im Vergleich zu MP3

Als Faustregel gilt: AAC benötigt eine im Vergleich zu MP3 um 30% geringere Datenrate um eine äquivalente Qualität zu erzielen.bran2000

Von MP3 übernommen wurden:

die nichtlineare Quantisierung (siehe digitale Audiotechnik)
in einer verbesserten Form die Huffmankodierung
die Regelschleife zur Datenratensteuerung
in einer modifizierter Form die Skalierung
Psychoakustisches Modell - Weiterentwicklung von Modell 2

Neu eingeführt wurden: bran2000

MDCT 493 Filterbank
TNS 504
Tools zur flexibleren Joint Stereo Kodierung
Prädiktionstool

Zusätzliche Features im MPEG-2 Standard

MPEG-2 ist mit folgenden zusätzlichen Features ausgestattet: bhas1997, 369

Multikanal Eingang
- Im MPEG-2 Stream können bis zu 5 hochqualitative Audiosignale und ein bandbeschränktes Signal mitgeführt werden. Diese 6 Kanäle werden auch als 5.1 channels bezeichnet. Die 5 Kanäle können zum Beispiel die Signale linker und rechter Kanal vorne, linker und rechter Kanal hinten beiinhalten. Der bandbeschränkte Kanal überträgt dann das Signal für den Subwoofer. laut watk2001, 316 werden bis zu 48!!!! unterstützt; vielleicht 8x6=48; aber warum?
Mehrsprachigkeit
- Es werden bis zu acht Kommentar-Kanäle unterstützt
Hohe Kompressionsrate
- MPEG-2 Audio Standard erlaubt Kompressionsbitraten bis zu 8 kbits/s!!
Erweiterte Anzahl an erlaubten Abtastraten
- zusätzlich zu den Abtastraten von MPEG-1 Audio (32kHz, 44.1kHz, 48kHz) unterstützt MPEG-2 Audio Abtastraten von 16kHz, 22.05kHz und 24kHz
AAC erlaubt auch verlustlose Kodierung, Die zu erzielende Kompressionsrate hängt dabei stark von dem Charakter des Signals ab..

Blockschaltbild AAC Encoder

1

Abbildung: Blockschaltbild eines AAC Encoders PC

Abbildung: Blockschaltbild eines AAC Encoders PDA_Phone

2

Blockschaltbild eines AAC Encoders

Das Blockbild zeigt, das ein AAC Encoder stark modular aufgebaut ist. Nicht alle Module müssen benutzt werden. Je nach Erfordernissen der Anwendung werden benötigte Module ausgewählt.Die möglichen Zusammensetzungen der Module werden in den Profiles von AAC beschrieben.

Das Signal durchläuft die verschiedenen Module. Jedes Modul bearbeitet das Signal und übermittelt die von ihm geforderten Daten an den Formatter, die dieser benötigt, um den Datenstrom zu generieren. Parallel dazu wird das Signal dem psychoakustischem Modell zugeführt. Das psychoakustische Modell kann Daten an jedes einzelne Modul schicken.

Blockschaltbild eines AAC Encoders PC

Blockschaltbild eines AAC EncodersPDA_Phone

Abbildung: Blockschaltbild eines AAC Encoders

Das Blockbild zeigt, das ein AAC Encoder stark modular aufgebaut ist. Nicht alle Module müssen benutzt werden. Je nach Erfordernissen der Anwendung werden benötigte Module ausgewählt.Die möglichen Zusammensetzungen der Module werden in den Profiles von AAC beschrieben.

Das Signal durchläuft die verschiedenen Module. Jedes Modul bearbeitet das Signal und übermittelt die von ihm geforderten Daten an den Formatter, die dieser benötigt, um den Datenstrom zu generieren. Parallel dazu wird das Signal dem psychoakustischem Modell zugeführt. Das psychoakustische Modell kann Daten an jedes einzelne Modul schicken.

Module

1

Filterbank

Verzicht auf polyphase Filterbank
verlustlose MDCT (siehe Transformation)

TNS

Temporal Noise Shaping
Prädiktionstechnik
- starker Signalanstieg
  - Frequenzkomponenten lassen sich gut prädizieren
  - hohe Kompression auch bei starken Signalanstiegen ohne Preecho

Abbildung:Prädiktion in Abhängigkeit der Signalform PC

Abbildung:Prädiktion in Abhängigkeit der SignalformPDA_Phone

Intensity und M/S Modul - flexible Joint Stereo Kodierung

Intensitäts und M/S Modul

AAC bietet eine Verbesserung gegenüber MP3 durch eine flexiblere Joint Stereo Codierung. Dazu verwendet es zwei Module:

Intensity Modul
- für sehr niedrige Bitraten
- räumliche Informationen (stereo, surround) reduziert oder ganz entfernt
M/S 394 Modul
- Psychoakustische Modell entscheidet, ob M/S oder Intensitätsstereofoniekodierung besser geeignet
M/S Signal
- M Mittensignal
  - Kodierung des Audiosignals als Monosignal
- S Seitensignal
  - Kodierung der Seiteninformationen
Intensitätsstereofonie
- Linkes und rechtes Signal

M/S und Intensitätskodierung

Bei beiden Methoden wird der räumliche Charakter eines Audiosignals mit Hilfe von 2 Kanälen kodiert. Bei der Intensitätskodierung sind die Kanäle mit linkem und rechtem Signal belegt. Bei der M/S Stereofonie (Mitte/Seite) ist in einem Kanal (Mitte) das Monosignal kodiert, im anderen(Seite) sind Informationen, mit deren Hilfe der Decoder aus Mitten und Seitensignal das stereofone Original regenerieren kann.

Prädiktions Modul bran2000, 6

Ist ein optionales Modul und wird nur im main profile verwendet (siehe Profiles). Das Prädiktionsmodul hat seine größte Effektivität bei Audiosignalen, die einen starken tonalen Charakter haben (z.B. Stimmpfeife).

Funktionsweise Prädiktionsmodul

Es wird eine Prädiktion auf aufeinanderfolgende Datenblöcke (Daten innerhalb eines Fensters) angewandt. Zur Prädiktion eines Blockes werden die bereits quantisierten Koeffizienten, die sich an der gleichen Stelle innerhalb des Blockes befinden, der beiden vorhergegangenen Blöcke herangezogen. Es werden die korrespondierenden Koeffizienten subtrahiert, die Differenzen übertragen.

Prädiktionsmodul

2

Filterbank watk2001, 318

AAC verwendet keine polyphase Filterbank. Stattdessen kommt eine einzige MDCT (siehe Transformation) zum Einsatz, die im Gegensatz zur polyphasen Filterbank von MP3 vollkommen verlustfrei arbeitet. Es wird wie bei MP3 mit variabler Fensterlänge gearbeitet. Auch hier gilt, je länger das Fenster,desto mehr Subbands können erzeugt werden und um so höher wird die Kompression ausfallen, aber auch um so größer ist die Gefahr, daß ein Pre-Echo entsteht. Das Filter ist so dimensioniert, dass das Pre-Echo im Vergleich zu MP3 reduziert wurde.

TNS Modul watk2001, 319

Dieses Modul ist hauptverantwortlich für die enorme qualitative Steigerung von AAC gegenüber MP3. Es steuert den zeitlichen Verlauf des Quantisierungsrauschens (=Temporal Noise Shaping). Die große Schwachstelle bei Encodern wie MP3 sind Signalstellen, an denen sich ein starker Signalanstieg befindet. Um Pre-Echo zu vermeiden, muss ein kurzes Fenster gewählt werden, die Kompression in diesem Fensters ist aber sehr mäßig (Siehe Fenster in MP3). Aus der Erkenntnis, dass aber gerade an solchen Signalstellen die Frequenzkomponenten untereinander eine hohe Redundanz aufweisen, benutzt das TNS Modul zur Kodierung solcher Signalabschnitte eine ausgeklügelte Prädiktionstechnik, sodass auch an solchen Stellen eine hohe Kompression möglich wird.

TNS Funktionsweise

Abbildung:Prädiktion in Abhängigkeit der Signalform

Die TNS Prädiktionstechnik berücksichtigt, daß Signalabschnitte mit starken zeitlichen Anstiegen im Frequenzbereich leichter zu prädizieren sind, da eine Spitze im Zeitverlauf einem kontinuierlichen Verlauf im Frequenzbereich entspricht, das eine genaue Prädiktion ermöglicht (Im Gegenzug sind kontinuierliche Signalabschnitte im Zeitbereich leichter zu prädizieren). Das TNS Modul spielt seine Stärken bei Signalabschnitten mit steilen Anstiegen aus. Durch das TNS Modul werden auch Signalabschnitte mit starken Spitzen hoch komprimiert, ohne daß das gefürchtete Pre-Echo hörbar wird.

Abbildung:Prädiktion in Abhängigkeit der Signalform PC

Abbildung:Prädiktion in Abhängigkeit der Signalform PDA_Phone

Intensitäts und M/S Modul

AAC bietet eine Verbesserung gegenüber MP3 durch eine flexiblere Joint Stereo Codierung. Dazu verwendet es zwei Module:

Intensity Modul - kommt dann zum Einsatz, wenn eine sehr niedrige Bitrate gefordert ist. Um Klangverzerrungen in Grenzen zu halten, werden räumliche Informationen (stereo, surround) reduziert oder ganz entfernt.
M/S 394 Modul - Bei Verwendung des M/S Moduls kann das psychoakustische Modell entscheiden, ob für die geforderte Komprimierung M/S oder Intensitätsstereofoniekodierung besser geeignet ist. Für Surround Sound kann ein M/S Signal für vorne/links+rechts, ein zweites für hinten/links und rechts stehen.

M/S und Intensitätskodierung

Bei beiden Methoden wird der räumliche Charakter eines Audiosignals mit Hilfe von 2 Kanälen kodiert. Bei der Intensitätskodierung sind die Kanäle mit linkem und rechtem Signal belegt. Bei der M/S Stereofonie (Mitte/Seite) ist in einem Kanal (Mitte) das Monosignal kodiert, im anderen(Seite) sind Informationen, mit deren Hilfe der Decoder aus Mitten und Seitensignal das stereofone Original regenerieren kann.

Prädiktions Modul bran2000, 6

Ist ein optionales Modul und wird nur im main profile verwendet (siehe Profiles). Das Prädiktionsmodul hat seine größte Effektivität bei Audiosignalen, die einen starken tonalen Charakter haben (z.B. Stimmpfeife).

Funktionsweise Prädiktionsmodul

Es wird eine Prädiktion auf aufeinanderfolgende Datenblöcke (Daten innerhalb eines Fensters) angewandt. Zur Prädiktion eines Blockes werden die bereits quantisierten Koeffizienten, die sich an der gleichen Stelle innerhalb des Blockes befinden, der beiden vorhergegangenen Blöcke herangezogen. Es werden die korrespondierenden Koeffizienten subtrahiert, die Differenzen übertragen.

Profiles watk2001, 316

1

auto

Profiles- mögliche Kombinationen an Modulen
- Main Profile
- Low Complexity Profile
- Skalierbare Abtastenraten Profile

2

auto

Das AAC Konzept basiert auf einer Anzahl von Kodierungstools, die als Module bezeichnet werden. Durch unterschiedliche Kombinationen der Module können Datenströme in drei verschiedenen Profiles produziert werden.

Main Profile

Das Main Profile erfordert den komplexesten Encoder. Es werden alle zur Verfügung stehenden Module genutzt.

Low Complexity Profile (LC) bhas1997, 369

Um die Anforderungen an Rechen- und Speicherleistung zu reduzieren, wird in diesem Profile nur ein Teil der zur Verfügung stehenden Module verwendet, bzw. Module nur in eingeschränkter Form eingesetzt.

Skalierbare Abtastrate Profile (SSR)

In diesem Profile wird das Audiosignal durch ein Filter auf vier gleichgroße Frequenzbereiche aufgeteilt. Jedes der vier Signale wird als ein eigener Bitstream kodiert. Ein Encoder kann jetzt je nach Komplexität für sich das Signal mit passender Abtastrate rekonstruieren. Je geringer Komplexität, um so geringer wird die Abtastrate und damit der darstellbare Frequenzbereich sein.

(empty)