Current Page: Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m04 » Learning Units » Unit ID: 03_13
Last Modified:Tuesday, 2015-05-05 - 08:09:08
 
Tools: ValidatePreview XML Preview HTML Preview PDF
Alternative: Printable HTML

 

Learning Unit ID: 03_13
Title: MP3
Abstract: MP3 ist der komplexeste Layer des MPEG Audiostandards. Aufbauend auf den MPEG Audiocodierungsprinzipien beschreibt diese Lerneinheit die technischen Erweiterungen von MP3 gegenüber den beiden einfacheren Layern I und II. Es werden die von MP3 verwendete Hybridfilterbank, die spezielle Hybridkodierung und die Besonderheit der variablen Datenratensteuerung beschrieben. Abschließend gibt es einen Überblick über die verschiedenen durch MPEG Audiokompression eingeführten Artefakte.
 
Status: Final for Review #2 - Audio sample and captions missing Version: 2004-11-05
History: 2004-11-05 (Thomas migl): Acros added
2004-09-23 (Thomas Migl): abb. explanations korrigiert
2004-08-16 (Robert Fuchs): Checked, fixed and exported for Review #2.
2004-08-04 (Thomas Migl): PDA Abb importiert
2004-07-29 (Thomas Migl): Hörbeispiele und Abb-finalPC importiert, LOD1 etwas geändert
2004-07-26 (Robert Fuchs): Manual import into the Greybox.
2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion.
2004-03-11 (Thomas Migl): LOD1 Header added
2004-03-05 (Thomas Migl): Abstract hinzugefügt
2004-03-05 (Robert Fuchs): Put sources into CorPU title where neccessary; added links.
2004-02-27 (HTMLContentTools): Replaced old numeric source refs by new alphanumeric ones.
2004-02-26 (Robert Fuchs): Upgrade from old LU 430, version 2003-12-03.
2004-02-25 (HTMLContentTools): Created skeleton page.
2003-12-03 (Robert Fuchs): Import von Version 2003-08-23 aus HTML Authoring Systeme v.1

Author
Author 1: Thomas Migl E-Mail: migl@ims.tuwien.ac.at
Author 2: (empty) E-Mail: (empty)
Author 3: (empty) E-Mail: (empty)
Author 4: (empty) E-Mail: (empty)
Author 5: (empty) E-Mail: (empty)
Organization: Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

Content

Einführung bran2000

1

AUTO

  • MP3 heißt im MPEG-1 Standard MPEG-1, Layer III
  • MP3 heißt im MPEG-2 Standard MPEG-1/2 Layer III

Erweiterung gegenüber Layer I und II

  • Erweiterte Architektur
    • Hybridfilterbank
    • Regelschleife für Datenbitrate
    • Möglichkeit variable Datenbitrate
  • Erweiterte Abtastraten
  • Erweiterte Bitraten

2

AUTO

MP3 ist der komplexeste Layer im MPEG-1 Audiostandard (siehe Lerneinheit Der MPEG-1 Audiostandard). Im MPEG-2 Standard, Teil3 (siehe Lerneinheit Der MPEG-2 Standard) werden Erweiterungen von MP3 unter der Bezeichnung MPEG-1/2, Layer -3 beschrieben. MP3 wurde mit dem Ziel konzipiert, ein Stereosignal mit einer Datenrate von 128 kbps in bestmöglicher Qualität zu kodieren.

Erweiterte Architektur gegenüber Layer I und II

MP3 baut auf Grund der Kompatibiltät streng auf die Architektur von MPEG1 Audio Layer I, II auf. Die wesentlichen Erweiterungen im Überblick:

  • Hybrid-Filterbank
    • polyphase Filterbank + MDCT 493
    • Switch-Funktion für Fensterlänge
  • Regelschleife zur Steuerung der Datenbitrate. diese besteht aus
  • Möglichkeit der variablen Datenbitrate

Erweiterte Abtastraten

MPEG-2 definiert zusätzliche Abtastraten von 16 kHz, 22.05 kHz und 24kHz. Das entspricht genau der Hälfte der Werte aus MPEG-1. MPEG-2.5 Ist der Name einer MP3 Erweiterung des MPEG-1/2 Layers. MPEG-2.5 erlaubt zusätzlich die Kodierung von Audiosignalen mit Abtastfrequenzen von 8 kHz, 11.05 kHz, 12 kHz.

Erweiterte Bitraten

Im MPEG-2 Standard wird der mögliche Bitratenbereich von 32-224kbps ( MPEG-1) auf 8-320kbps erweitert.

Blockschaltbild MP3 Encoder

1

Abbildung: MP3 Encoder PC

Abbildung: MP3 Encoder PDA_Phone

2

Abbildung: MP3 Encoder PC

  • Am Eingang werden die Werte eines Fensters des Eingangssignals eingelesen
  • Die Filterbank filtert das Signal in 32 Subbands (siehe MPEG Audiokodierungsprinzip)
  • Die MDCT 493 (siehe Transformationen)unterteilt jedes davon in weitere Frequenzbänder. Die Anzahl ist abhängig von der gewählten Fensterlänge
  • Die 1024-point FFT 417 (siehe Transformationen) übergibt dem psychoakustischen Modell eine genaue Frequenzanalyse des Eingangssignals.
  • Das psychoakustische Modell (siehe MPEG Audiokodierungsprinzip) errechnet sowohl die erforderliche Fensterlänge als auch die Maskierungsschwellwerte als Funktion der Frequenz.
  • Die Quantisierungssteuerung erhält dier errechneten Maskierungsschwellwerte vom psychoakustischem Modell und fixiert für alle Frequenzbänder die Einstellung der Quantisierungsgenauigkeit am nichtlinearen Quantisierer.
  • Der nichtlineare Quantisierer(siehe digitale Audiotechnik) komprimiert Werte mit der von der Quantisierungssteuerung vorgegebenen Einstellungen.
  • Huffmankodierung bewirkt weitere Kompression (siehe Entropiekodierung)
  • Puffer kann eingangseitig variablen Datenstrom übernehmen,ausgangsseitig liefert er einen Datenstrom mit konstanter Bitrate.Weiters wird die Quantisierungssteuerung laufend über Füllstand des Puffers informiert
  • Im Formater wird der endgültige MP3 Datenstrom generiert und zur Übertragung bereitgestellt

Abbildung: MP3 Encoder PDA_Phone

Abbildung: MP3 Encoder

  • Am Eingang werden die Werte eines Fensters des Eingangssignals eingelesen
  • Die Filterbank filtert das Signal in 32 Subbands (siehe MPEG Audiokodierungsprinzip)
  • Die MDCT 493 (siehe Transformationen)unterteilt jedes davon in weitere Frequenzbänder. Die Anzahl ist abhängig von der gewählten Fensterlänge
  • Die 1024-point FFT 417 (siehe Transformationen) übergibt dem psychoakustischen Modell eine genaue Frequenzanalyse des Eingangssignals.
  • Das psychoakustische Modell (siehe MPEG Audiokodierungsprinzip) errechnet sowohl die erforderliche Fensterlänge als auch die Maskierungsschwellwerte als Funktion der Frequenz.
  • Die Quantisierungssteuerung erhält dier errechneten Maskierungsschwellwerte vom psychoakustischem Modell und fixiert für alle Frequenzbänder die Einstellung der Quantisierungsgenauigkeit am nichtlinearen Quantisierer.
  • Der nichtlineare Quantisierer(siehe digitale Audiotechnik) komprimiert Werte mit der von der Quantisierungssteuerung vorgegebenen Einstellungen.
  • Huffmankodierung bewirkt weitere Kompression (siehe Entropiekodierung)
  • Puffer kann eingangseitig variablen Datenstrom übernehmen,ausgangsseitig liefert er einen Datenstrom mit konstanter Bitrate.Weiters wird die Quantisierungssteuerung laufend über Füllstand des Puffers informiert
  • Im Formater wird der endgültige MP3 Datenstrom generiert und zur Übertragung bereitgestellt

Hybridfilterbank

1

Polyphase Filterbank

2-stufige Filterbank:

MDCT bei MP3

Zerlegt Signal in 576 Frequenzbänder

  • passgenauere Maskierungsschwellwertzuordnung
  • höherer Kompressionsfaktor
  • Grenzen von MDCT 493 durch Heisenberg Ungleichheit

Heisenberg Ungleichheit

  • Je genauer die Frequenzauflösung, desto gröber die Auflösung des Signals im Zeitbereich
  • Je genauer die Auflösung im Zeitbereich, desto gröber die Auflösung im Frequenzbereich

Switch-Funktion für Fensterlänge

Hybridfilterbank kann mit verschiedenen Fensterlängen arbeiten:

  • langes Fenster
    • eingesetzt bei gleichmäßig verlaufenden Signalabschnitt
    • hohe Kompression
  • kurzes Fenster
    • bei Signalabschnitten hoher Diskontinuität
    • Verminderung des Pre-Echoeffektes
    • mäßige Kompression

2

AUTO

MP3 benutzt zwei Stufen, um das Signal in Subbands zu zerlegen. Da die beiden Stufen nach verschiedenen Prinzipien arbeiten, werden sie als Hybrid Filterbank bezeichnet

Polyphase Filterbank watk2001, 312

Aufbauend auf die Architektur von MPEG-1/Audio behält Layer III die Eingangsstruktur des MPEG/Audio Standards mit der 32-Subband polyphase Filterbank bei (siehe Lerneinheit MPEG Audio Kodierungsprinzip).

MDCT bei MP3 bran2000

Jedes der 32 Subands der polyphasen Filterbank wird durch die MDCT in noch feinere Frequenzbänder aufgeteilt. Praktisch bewirkt die MDCT, dass jedes Subband in 18 Untersubbands gegliedert wird. Das entspricht dann einer Gesamtanzahl von 576 Subbands in MP3 gegenüber 32 Subbands in Layer I und II. Der Vorteil der höheren Anzahl an Subbands liegt darin, dass das psychoakustische Modell den Bändern passgenauere Maskierungsschwellwerte zuordnen kann, was eine höhere Kompression ermöglicht (siehe Lerneinheit MPEG Audio Kodierungsprinzip).

Eigenschaften der MDCT

Bei der Verwendung der MDCT (siehe Transformationen) muss folgendes berücksichtigt werden. Im Gegensatz zur polyphasen Filterbank, die unabhängig von der gewählten Fensterlängeimmer 32 Subbands erzeugt, ist die Anzahl der Subbands bei der MDCT nicht konstant. Sie hängt von der gewählten Fensterlänge ab. Für lange Fenster ergeben sich mehr Subbbands, für kurze Fenster weniger (siehe Lerneinheit MPEG Audio Kodierungsprinzip).

AUTO

Es gilt: Anzahl der in einem Fenster enthaltenen Abtastwerte = Anzahl der Subbands. Daraus folgt: Je grösser man die Fensterlänge wählt (hohe Anzahl an Abtastwerten), desto höher die Anzahl der Subbands, desto genauer die Maskierungsschwellwertanpassung und desto grösser die zu erzielende Kompressionsrate.

Heisenberg Ungleichheit watk2001, 313

Obiges lässt die Schlussfolgerung zu, mann muss nur möglichst große Fenster verwenden, um eine optimale Audiokompression zu erzielen. Die Ausdehnung der Fensterlänge hat aber ihre Grenzen, die durch die Heisenberg Ungleichheit gegeben sind.

Die Heisenberg Ungleichheit besagt, dass...

  • Je genauer die Frequenzauflösung, desto gröber die Auflösung des Signals im Zeitbereich
  • Je genauer die Auflösung im Zeitbereich, desto gröber die Auflösung im Frequenzbereich

Heisenberg für Audiokodierung

Für die Audiokomprimierung bedeutet dies: Wählt man ein grosser Fenster, so hat man zwar eine sehr gute Frequenzauflösung und damit verbunden eine hohe Anzahl an Subbands, andererseits kann aber auf das Fenster im Zeitbereich nur als eine Einheit Einfluss genommen werden (=grobe Auflösung im Zeitbereich). So kann im Zeitbereich immer nur ein Wert für das Quantisierungsrauschen eingestellt werden, der über eine gesamte Fensterlänge konstant ist. Der Betrag des Quantisierungsrauschen ist durch die hohe Frequenzauflösung zwar sehr genau berechnet, aber er kann nicht an zeitlichen Signaländerungen innerhalb eines Fensters angepasst werden. Daraus resultiert bei zu langen Fenstern verstärkt der gefürchtete Pre-Echoeffekt.

Switch-Funktion für Fensterlänge watk2001

Für die Audiokodierung wird das Audiosignal in kleine Zeitabschnitte, in Fenster, unterteilt. Bei Layer I und II ist die Fensterlänge immer konstant. Bei MP3 hingegen kann die Hybridfilterbank mit verschieden langen Fenstern arbeiten (siehe Lerneinheit MPEG Audio Kodierungsprinzip).

Grundsätzlich werden zwei verschieden lange Fenster verwendet:

  • Langes Fenster - 24ms
    • Entspricht 576 Abtastwerte bei einer Abtastfrequenz von 48 kHz. Es ergeben sich 576 Frequenzbänder
    • Dieses Fenster wird immer dann verwendet, wenn das Signal relativ kontinuierlich verläuft. Durch die hohe Frequenzauflösung kann eine entsprechend hohe Kompression erzielt werden
  • Kurzes Fenster - 8ms
    • Entspricht 192 Abtastwerte bei einer Abtastfrequenz von 48 kHz. Es ergeben sich nur 192 Frequenzbänder
    • Bei einem plötzlichen Anstieg des Signals innerhalb eines Fensters wird ein unerwünschtes Pre-Echo hörbar. Wählt man für solch einen Fall das kurze Fenster, wird dieser Effekt gemindert. Aber auch die maximal erzielbare Kompression wird dadurch reduziert.

Zusätzlich zu den beiden Fenster gibt es noch zwei Übergangsfenster, die einen sanften Übergang zwischen den beiden Fenstern erlauben.

Quantisierung und Kodierung

1

AUTO

  • Nichtlinearer Quantisierer - kürzere Wortlänge bei gleichen Rauschen
  • Huffman Kodierung - variable Wortlängen auf Grund statistischer Verteilung
  • Regelschleife für Datenrate

2

Nichtlinearer Quantisierer

Im Gegensatz zu Layer I und Layer II werden bei MP3 die Werte nichtlinear quantisiert. Dadurch werden große Werte gröber quantisiert, kleinere Werte feiner. Die nichtlineare Quantisierung an und für sich bewirkt schon, dass im Vergleich zur linearen Quantisierung bei gleichen wahrnehmbaren Quantisierungsrauschen mit kürzeren Wortlängen gearbeitet werden kann (siehe Lerneinheit Grundlagen der digitalen Audiotechnik).

Huffmankodierung

Die Daten aus dem Quantisierer werden einer Hufmannkodierung unterzogen. Häufig vorkommende Werte werden kurze Wortlängen zugeordnet. Um die Huffmankodierung effektiver zu nutzen, kann für ein Fenster für jedes Subband eine eigene Huffman Tabelle verwendet werden.

Regelschleife für Datenrate

Auch bei MP3 ist auf Grund der vom User vorgegebene Datenstromrate die Gesamtanzahl der Bitstellen für ein Fenster vorgegeben (siehe Bitstellenzuweisung). Erfordern nun die ermittelten Huffmanwerte mehr Bitstellen,so muss eine gröbere Quantisierung gewählt werden, erfordern sie weniger, kann die Quantisierung feiner eingestellt werden. In diesem Regelkreis werden auch die optimalen Skalierungswerte iterativ festgelegt

Diese Prozedur wird sooft wiederholt, bis die passenden Quantisierungseinstellungen für alle Subbands gefunden sind.

Passende Einstellungen zeichnen sich folgendermassen aus:

  1. die gesamten Bitstellen der Huffmanwerte sind gleich den Bitstellen, die dem Fenster zur Verfügung stehen.
  2. ein Minimum an Rauschen ist hörbar.

Variable Datenratenkodierung

1

AUTO

  • Fenster können sich von anderen Fenstern Bitstellen ausborgen
  • Verminderung von Pre-Echo
  • Puffer

Bit Reservoir Technik PC

Bitreservoir Technik PDA_Phone

2

AUTO

MPEG/Audi fordert eine konstante Datenstromrate des komprimierten Signals. Daraus folgt für Layer I und II, dass jedem Fenster immer die gleiche Anzahl an Bitstellen zur Verfügung gestellt werden.

MP3 bietet nun mit der Bit Reservoir Technik die Möglichkeit, dass aufeinander folgende Fenster ihre Bitstellen untereinander aufteilen können.

  • Fenster mit regelmäßigen Signalsverlauf können mit ein bisschen weniger Bitstellen auskommen. Sie können nachfolgenden Fenster die überschüssigen Bitstellen "borgen".
  • Fenster mit Signalanstieg benötigen mehr Bitstellen, um Pre-Echo zu mindern.

Bit Reservoir Technik PC

Der Puffer informiert die Quantisierungssteuerung laufend über seinen Füllstand.In der Phase, in der das bearbeitete Signal relativ regelmäßig verläuft, kann die Quantiserungssteuerung eine einen Hauch gröbere Quantisierung wählen, um den Puffer zu leeren. Wenn dann ein Fenster mit einem Ansprung des Signals kommt, kann der entleerte Puffer mit den aus dem Anstieg resultierenden großen Koeffizienten aufgefüllt werden, während davon völlig unbehelligt der Pufferausgang das Signal weiterhin mit konstanter Bitrate ausgegeben kann.

Bit Reservoir Technik PDA_Phone

Der Puffer informiert die Quantisierungssteuerung laufend über seinen Füllstand.In der Phase, in der das bearbeitete Signal relativ regelmäßig verläuft, kann die Quantiserungssteuerung eine einen Hauch gröbere Quantisierung wählen, um den Puffer zu leeren. Wenn dann ein Fenster mit einem Ansprung des Signals kommt, kann der entleerte Puffer mit den aus dem Anstieg resultierenden großen Koeffizienten aufgefüllt werden, während davon völlig unbehelligt der Pufferausgang das Signal weiterhin mit konstanter Bitrate ausgegeben kann.

Artifacts

1

AUTO

Artifacts sind klangliche Störungen verursacht durch

  • niedrige Bitraten
  • schlechte Encoder
  • Prinzip perzeptueller Audiokodierung

Arten von Artifacts

Verlust der Bandbreite

  • Encoder hat zuwenige Bitstellen zu Verfügung
    • Hohe Frequenzen auf Null gesetzt
    • Veringerung der Bandbreite

Pre-Echo

Abbildung: Pre-Echo PC

Abbildung: Pre-Echo PDA_Phone

Precho hören

play

Rauhheit, Sprachverdopplung

  • niedrigen Abtastraten
  • niedrige Datenraten
Sprachverdopplung hören

Stimme klingt verdopplet. play

2

AUTO

Bei der perzeptuellen Audiokodierung wird danach getrachtet, dass nur jene Daten entfernt werden, die ohnehin nicht von unserem Gehör wahrgenommen werden können. Bei geringer Datenrate oder bei schlechten Encodern wird der Datenverlust aber als Artifacts hörbar.

Arten von Artefacts

Verlust der Bandbreite bran2000, 7

Wenn der Encoder mit den zur Verfügung stehenden Bitstellen nicht auskommt und auch die Iterationsalgorithmen zur Bitzuweisung kein befriedigendes Ergebnis liefern können, werden bestimmte Frequenzen einfach auf Null gesetzt, meistens die hohen. Bei Wiedergabe klingt das Signal dumpfer. Viel störender wirkt diese Artifact, wenn die Bandbegrenzung nicht konstant ist, sondern sich z.B. in 24ms Rythmus ändert. Dem Audiosignal wird ein störender Wowo-Effekt aufgeprägt.

Preecho

Abbildung: Pre-Echo PC watk2001, 291

UTO

Pre-Echo ist eine Artifact, die sich aus den Grundprinzipien der perzeptuellen Audiokomprimierungstechnik ergibt. Das maximal erlaubte Quantisierungsrauschen wird immer für ein Fenster berechnet und ist über dessen gesamte Länge konstant. Befindet sich innerhalb des Fensters ein starker Anstieg des Signals (Trommelschlag, Konsonant bei Sprache..), wird bei der Wiedergabe das Quantisierungsrauschen am Anfang des Fensters hörbar.

Abbildung: Pre-EchoPDA_Phone

Abbildung: Pre-Echo

Pre-Echo ist eine Artifact, die sich aus den Grundprinzipien der perzeptuellen Audiokomprimierungstechnik ergibt. Das maximal erlaubte Quantisierungsrauschen wird immer für ein Fenster berechnet und ist über dessen gesamte Länge konstant. Befindet sich innerhalb des Fensters ein starker Anstieg des Signals (Trommelschlag, Konsonant bei Sprache..), wird bei der Wiedergabe das Quantisierungsrauschen am Anfang des Fensters hörbar.

Precho hören

Das Pre-Echo wird von unserem Ohr als eine dem Ansteig vorausgehende, unschöne Rauschflanke empfunden. Besonders bei den Konsonanten wird das Preecho als ein störender Zischlaute wahrnehmbar. play

Techniken zur Vermeidung des Pre-Echo Effektes
  • Das Pre-Echo ist um so deutlicher hörbar, je länger das Fenster ist und je näher der Anstieg beim Fensterende liegt. Wahl eines kürzeren Fensters vermindert die Hörbarkeit dieser Artifact. Ist die Rauschflanke kleiner als 1ms, ist sie für unser Ohr nicht mehr hörbar.
  • MP3 nutzt variable Datenrate:bei Fenster mit starken Signalanstiegen werden Koeffizienten feiner quantisiert. Das Rauschen wird dadurch über die gesamte Fensterlänge reduziert. die erhöhte Anzahl an benötigten Bitstellen wird dabei vom Puffer zur Verfügung gestellt
  • AAC verwendet das TNS Modul (siehe Lerneinheit MPEG-2 Audio: AAC)

Rauhheit, Sprachverdopplung bran2000, 7

Speziell bei niedrigen Bitraten und niedrigen Abtastfrequenzen kann der zeitliche Strukturverlauf des Signals nicht mehr korrekt wiedergegeben werden. Hörbar wird diese Artifact vorallem bei Sprachaufnahmen. Zur Verminderung dieses Effektes verwendet AAC das TNS Modul (siehe Lerneinheit MPEG-2 Audio: AAC).

Sprachverdopplung hören

Spricht ein Sprecher, klingt seine Stimme verdoppelt: es klingt, wie wenn zwei Stimmen gleichzeitig sprechen würden. play


Notes
(empty)