Current Page: Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m04 » Learning Units » Unit ID: 03_08
Last Modified:Tuesday, 2015-05-05 - 08:09:08
 
Tools: ValidatePreview XML Preview HTML Preview PDF
Alternative: Printable HTML

 

Learning Unit ID: 03_08
Title: Grundlagen der perzeptuellen Audiokodierung
Abstract: Die Psychoakustik beschäftigt sich mit den in unserem Bewußtsein auftretenden Hörerscheinungen. Sie versucht, die psychischen Empfindungen, die durch akustische Reize ausgelöst werden, qualitativ und quantitativ zu erfassen, zu beschreiben und zu erklären. Sie gibt Aufschluss darüber, was wir hören und was nicht . In der Audiocodierungstechnik bedient man sich der Psychoakustik, um nur wirklich hörbare Informationen eines Audiosignals codieren zu müssen. Diese Lerneinheit erklärt die für die Audiokodierung wichtigen Hörphänomene Hörbereich, Maskierungseffekt und kritische Bandbreite. Weiters wird der Begriff "Quantisierungsrauschen" eingeführt und dessen psychoakustische Wirkung auf das menschliche Gehör erörtert.
 
Status: Audiofiles not in Greybox yet Version: 2005-01-05
History: 2005-01-05 (Robert Fuchs): Fixed buggy lists; captions missing, two links dead; added applet 40701; audio example still as links, not part of Greybox yet; does not validate!
2004-11-05 (Thomas Migl): 2 Links auf applet in LOD3 hinzugefügt, Akronyme hinzugefügt
2004-09-09 (Thomas Migl): pda Abbildung hinzugefügt.
2004-08-16 (Robert Fuchs): Checked, fixed and exported for Review #2.
2004-07-29 (Thomas Migl): Abb PDA final importiert +++++++ TO DO:; Impl. applet 40701 und applet firat-wiesner
2004-07-29 (Robert Fuchs): Fixed HTMLAuth2 gremlins.
2004-07-29 (Thomas Migl): Bilder (final PC) improtiert, Hörbeispiel hinzugefügt, Platzhalter für Applet 40701
2004-07-27 (Robert Fuchs): Manual import into the Greybox; some re-tagging since this unit was rather old (was our first "completed" one).
2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion.
2004-03-11 (Thomas Migl): LOD1-Header added
2004-03-08 (Robert Fuchs): Fixed bug where bExplanation was attached to image.
2004-03-05 (Robert Fuchs): Put sources into CorPU title where neccessary; glossary entries and acronyms are tagged as xIgnore; removed dummy entries for LOD 3.
2004-03-04 (Thomas Migl): Abstract hinzugefügt
2004-02-27 (HTMLContentTools): Replaced old numeric source refs by new alphanumeric ones.
2004-02-26 (Robert Fuchs): Upgrade from old LU 400, version 2003-12-03.
2004-02-25 (HTMLContentTools): Created skeleton page.
2003-12-03 (Robert Fuchs): Import von Version 2003-08-23 aus HTML Authoring Systeme v.1

Author
Author 1: Thomas Migl E-Mail: migl@ims.tuwien.ac.at
Author 2: (empty) E-Mail: (empty)
Author 3: (empty) E-Mail: (empty)
Author 4: (empty) E-Mail: (empty)
Author 5: (empty) E-Mail: (empty)
Organization: Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

Content

Psychoakustik

1

AUTO

  • macht Aussagen über psychologisches Empfinden von akustischen Reizen eska1997, 160
  • unterscheidet, was vom Gehirn als hörbar beziehungsweise nicht hörbar empfunden wird eska1997, 160
  • bildet Grundlage für Datenkompression von digitalen Audiosignalen
  • nur der als hörbar empfundene Teil des Audiosignals wird kodiert

2

AUTO

Die Psychoakustik beschäftigt sich mit den in unserem Bewußtsein auftretenden Hörerscheinungen. Sie versucht, die psychischen Empfindungen, die durch akustische Reize ausgelöst werden, qualitativ und quantitativ zu erfassen, zu beschreiben und zu erklären. Sie gibt Aufschluss darüber, was wir als hörbar empfinden und was nicht. eska1997, 160

AUTO

Die Grundidee der perzeptuellen Audiokodierung besteht nun darin, akustische Ereignisse, die das menschliche Gehör ohnehin nicht wahrnehmen kann, aus dem Audiosignal zu entfernen. Dies führt zu einer deutlichen Datenkomprimierung, die zwar verlustbehaftet ist, wobei der Unterschied zum unkomprimierten Original für unser Ohr im Idealfall aber nicht wahrnehmbar ist.

Hörbereich krem2004

1

AUTO

Die Hörfähigkeit unseres Gehörs hat Grenzen hinsichtlich Frequenz und Schallintensität der Schallquelle.

Frequenzbereich

  • ca. 20 Hz 500 - 20 000 Hz
  • nimmt im Alter ab

Schallintensität

  • Ruhehörschwelle - mindestens erforderlicher Schalldruckpegel
  • Schmerzschwelle - Schall wird nicht mehr akustisch differenziert

2

AUTO

Unser Gehör kann nur akustische Ereignisse innerhalb eines bestimmten Frequenz- und Schallpegelbereichs wahrnehmen.

Frequenzbereich

Ein junger, gesunder Mensch kann Töne in einem Frequenzbereich von ca. 20 Hz 500 bis 20 kHz wahrnehmen.

Schallintensitätsbereich

Ruhehörschwelle

Akustische Signale müssen einen gewissen Mindestschallpegel aufweisen, um wahrgenommen zu werden. Dieser Mindestschallpegel ist stark frequenzabhängig. Tiefe und sehr hohe Töne müssen, um von uns gehört zu werden, einen größeren Schalldruckpegel aufweisen als Töne mittlerer Frequenzen. Diesen Mindestschallpegel bezeichnet man als Hörschwelle.

Schmerzschwelle

Eine weitere Grenze unseres Gehörs ist die Schmerzschwelle, ab der das akustische Signal auf Grund seiner hohen Schallintensität als physischer Schmerz empfunden wird. Diese Grenze spielt für die Datenreduktion allerdings keine Rolle.

Frequenzabhängigkeit des Hörbereichs krem2004

1

Abbildung: Frequenzabhängigkeit des Hörbereichs PC

Abbildung: Frequenzabhängigkeit des HörbereichsPDA_Phone

2

Abbildung: Frequenzabhängigkeit des HörbereichsPC

Dem Diagramm sind auf der x-Achse die Frequenzen (Tonhöhe) in Hz, auf der y-Achse deren Schallpegel (entspricht der Schallintensität) in Dezibel 501 zu entnehmen.

Ruhehörschwelle

Die untere Kurve, die sogenannte Ruhehörschwelle, zeigt den frequenzabhängigen Minimalwert für die Schallintensität eines Tones an, der erreicht werden muss, um vom menschlichen Ohr noch wahrgenommen werden zu werden. Diese Kurve gilt nur, wenn ein einziger Ton gespielt wird und sonst akustische Ruhe herrscht. Werden mehrere Töne gleichzeitig gespielt, ändert sich auch die Ruhehörschwelle (siehe Maskierungseffekt). Man sieht, dass im Bereich von 1kHz-4kHz unser Gehör die größte Sensibilität aufweist. Dieser Bereich ist auch für die Sprachverständlichkeit am wichtigsten. Hier unterscheidet unser Ohr zwischen den verschiedenen Vokalen. Auf höhere und tiefere Frequenzen reagiert unser Ohr unempfindlicher. Die Hörschwellkurve zeigt typische Messwerte, die für einen jungen Menschen gelten. Mit steigendem Alter wird das Ohr auf tiefe und hohe Töne immer unempfindlicher.

Schmerzschwelle

Ab der Schmerzschwelle wird der Schall als Schmerz empfunden. Es können keine unterschiedlichen Töne mehr differenziert werden. Setzt man sein Gehör langfristig Schalldruckpegeln oberhalb der Schmerzschwelle aus, verliert es an Leistungsfähigkeit.

Abbildung: Frequenzabhängigkeit des HörbereichsPDA_Phone

Ruhehörschwelle

Die untere Kurve, die sogenannte Ruhehörschwelle, zeigt den frequenzabhängigen Minimalwert für die Schallintensität eines Tones an, der erreicht werden muss, um vom menschlichen Ohr noch wahrgenommen werden zu werden. Diese Kurve gilt nur, wenn ein einziger Ton gespielt wird und sonst akustische Ruhe herrscht. Werden mehrere Töne gleichzeitig gespielt, ändert sich auch die Ruhehörschwelle (siehe Maskierungseffekt). Man sieht, dass im Bereich von 1kHz-4kHz unser Gehör die größte Sensibilität aufweist. Dieser Bereich ist auch für die Sprachverständlichkeit am wichtigsten. Hier unterscheidet unser Ohr zwischen den verschiedenen Vokalen. Auf höhere und tiefere Frequenzen reagiert unser Ohr unempfindlicher. Die Hörschwellkurve zeigt typische Messwerte, die für einen jungen Menschen gelten. Mit steigendem Alter wird das Ohr auf tiefe und hohe Töne immer unempfindlicher.

Schmerzschwelle

Ab der Schmerzschwelle wird der Schall als Schmerz empfunden. Es können keine unterschiedlichen Töne mehr differenziert werden. Setzt man sein Gehör langfristig Schalldruckpegeln oberhalb der Schmerzschwelle aus, verliert es an Leistungsfähigkeit.

Maskierungseffekt krem2004 eska1997, 184

1

AUTO

  • Zwei verschiedene akustische Signale unterschiedlicher Lautstärke
  • Signale haben ähnliche Frequenz
  • Maskierungseffekt - Ohr hört nur mehr das lautere Signal
  • leiseres Signal wird "maskiert"
  • Maskierungsschwellwert ist minimale Lautstärke, die das schwächere Signal aufweisen muss, um nicht maskiert zu werden

Applet Maskierungseffekt applet40701

Also available at http://www.cs.ubc.ca/spider/kvdoel/jass/masking/masking.html

2

AUTO

Viele Audiokomprimierungstechniken nutzen den "Maskierungseffekt", ein menschliches Hörphänomen, das dann auftritt, wenn ein ursprünglich hörbares Audiosignal von einem frequenzähnlichen, aber lauteren Audiosignal überlagert wird. Das schwächere Audiosignal ist plötzlich für unser Gehör nicht mehr wahrnehmbar, es wurde "maskiert".

AUTO

Dieses Hörphänomen begegnet uns immer wieder im Alltag, etwa, wenn wir ein Gespräch führen und dann plötzlich das Radio laut aufgedreht wird oder ein Auto vorbeifährt: Es ist nicht mehr möglich, den Gesprächspartner zu verstehen. Je höher nun die Lautstärke der Störquelle gegenüber unserer Gesprächslautstärke wird, desto geringer die Verständlichkeit. Ab einer gewissen Störlautstärke wird die Stimme unseres Gesprächpartners unhörbar. Die Störquelle hat unser Gespräch maskiert.

Um dieses Hörphänomen auch mathematisch beschreiben zu können, wird der Begriff des Maskierungsschwellwertes definiert.

AUTO

Der Maskierungsschwellwert des Maskierers gibt den minimalen Schalldruckpegel an, den ein schwächeres Signals aufweisen muss, um gerade noch gehört zu werden. Das lautere Signal wird dabei als Maskierer bezeichnet. Alle akustischen Signale, deren Lautstärke unter diesen Wert liegen, sind für unser Gehör nicht mehr wahrnehmbar.

AUTO

Dieser Maskierungsschwellwert ist stark frequenzabhängig. Ein Ton kann dabei nur jene Töne maskieren, deren Frequenzen in unmittelbarer Nähe seiner eigenen liegen. Für die Audiokompromierungstechnik ist in diesem Zusammenhang weiters noch der Umstand von Bedeutung, dass tonale und atonale Schallereignisse verschiedene Maskierungseigenschaften besitzen.

Applet Maskierungseffekt applet40701

Kurzbeschreibung

  • User kann von 2 Tönen Frequenz unabhängig voneinander steuern. Weiters steht ein Rauschgenerator zur Verfügung.

Instruktionen

  • Wähle zuerst die beiden Töne so, dass sie zwar in Nähe liegen , aber noch als unterschiedliche Töne wahrgenommen werden.
  • Reduziere nun die Lautstärke eines Tones, bis er nicht mehr gehört wird.
  • Wiederhole diesen Vorgang für verschiedene Frequenzabstände
    • Wann wird der Ton maskiert und wann nicht?
    • Erkennst du einen Zusammenhang zwischen Maskierungseffektivität und Kritischer Bandbreite?
  • Für weitere Versuche ersetze den Ton durch das Rauschen
    • Versuche das Rauschen soweit zu reduzieren, dass es vollkommen vom lauteren Sinuston maskiert wird.
    • kann der Sinustton (oder auch beide) das rauschen maskieren?
    • Begründe die Antwort dieser Frage?

Also available at http://www.cs.ubc.ca/spider/kvdoel/jass/masking/masking.html

Mithörschwellen bei Maskierung krem2004 eska1997, 184

1

Abbildung: Mithörschwellen bei Maskierung PC

Abbildung: Mithörschwellen bei MaskierungPDA_Phone

ere

2

Abbildung: Mithörschwellen bei Maskierung PC

Das Diagramm zeigt, wie ein Ton die Hörschwelleneigenschaft unseres Gehörs beeinflusst. Es werden dabei die Maskierungseigenschaften eines Schmalbandrauschens (Mittenfrequenz 1 kHz, Bandbreite 160 Hz) bei unterschiedlicher Schallintensität 20-100 dB 502 untersucht. Die rote Linie zeigt die Ruhehörschwelle unseres Ohres, wenn das Signal ausgeschaltet ist. Wenn das Schmalbandrauschen eingeschaltet wird, werden auch unsere Ruhehörschwellwerte entsprechend verändert (blaue Kurve). Aus der Darstellung lässt sich entnehmen, dass Töne, deren Frequenzen in unmittelbarer Nähe des maskierenden Signals liegen, stark verdeckt werden, während Töne mit weitentfernten Frequenzen vom Maskierungseffekt weitgehend unberührt bleiben.

Abbildung: Mithörschwellen bei Maskierung PDA_Phone

Das Diagramm zeigt, wie ein Ton die Hörschwelleneigenschaft unseres Gehörs beeinflusst. Es werden dabei die Maskierungseigenschaften eines Schmalbandrauschens (Mittenfrequenz 1 kHz, Bandbreite 160 Hz) bei unterschiedlicher Schallintensität 20-100 dB untersucht. Die rote Linie zeigt die Ruhehörschwelle unseres Ohres, wenn das Signal ausgeschaltet ist. Wenn das Schmalbandrauschen eingeschaltet wird, werden auch unsere Ruhehörschwellwerte entsprechend verändert (blaue Kurve). Aus der Darstellung lässt sich entnehmen, dass Töne, deren Frequenzen in unmittelbarer Nähe des maskierenden Signals liegen, stark verdeckt werden, während Töne mit weitentfernten Frequenzen vom Maskierungseffekt weitgehend unberührt bleiben.

Kritische Bandbreite (Critical Band) eska1997, 124 watk2001, 48

1

AUTO

  • kritische Bandbreite ist jener Frequenzbereich, innerhalb dessen zwei verschiedene Töne nicht mehr differenzierbar sind
  • die kritische Bandbreite ist frequenzabhängig
    • Töne unter 500 Hz - kritische Bandbreite konstant 100 Hz
    • Töne über 500 Hz - kritische Bandbreite ca. 20% der Frequenz selbst

Applet Kritische Bandbreite applet40701

 

2

AUTO

Die begrenzte frequenzabhängige Tonhöhenauflösung unseres Gehörs ist weiterer psychoakustischer Effekt, der für die Audiokomprimierung von Bedeutung ist. Die Frequenzen von gleichzeitig erklingenden Tönen müssen einen bestimmten Mindestabstand von einander haben, damit sie von unserem Ohr auch als Töne verschiedener Tonhöhe wahrgenommen werden können. Töne die innerhalb dieses Mindestabstandes, der sogenannte "Kritischen Bandbreite", liegen können von uns nicht mehr getrennt voneinander wahrgenommen werden, sondern werden als Schwebung empfunden. eska1997, 124

AUTO

Für Töne unter 500 Hz hat die kritische Bandbreite konstant ca. 100 Hz, für Töne über 500 Hz beträgt sie ungefähr 20% der Frequenz selbst, was ungefähr einem Tonabstand von einer kleinen Terz entspricht.

Die kritische Bandbreite ist nur bei gleichzeitig erklingenden Tönen gültig. Bei der Wahrnehmung zweier hintereinander gespielten Einzeltönen ist die Frequenzauflösung unseres Ohres ungleich größer. Für die Audiokomprimierung ist die kritische Bandbreite von Bedeutung, da viele psychoakustische Effekte mit diesen Frequenzbändern in Zusammenhang stehen.

3

Applet Kritische Bandbreite applet40701

Kurzbeschreibung

  • User kann von 2 Tönen Frequenz unabhängig voneinander steuern

Instruktionen

  • Wähle zuerst für beide Töne gleiche Frequenz (bei gleicher Lautstärke)
  • Verändere nun langsam die Frequenz eines Tones
    • Was kannst du hören?
    • Ab wann hörst du zwei unterschiedliche Töne?
    • Was hat das mit der Kritischen Bandbreite unseres Gehörs zu tun?

Quantisierungsrauschen watk2001, 220

1

AUTO

  • Digital/Analog Wandlung - Quantisierungfehler
  • Audiosignal - Quantisierungsfehler als Rauschen hörbar
  • Quantisierungsrauschen um so geringer, je größer die Quantisierungsgenauigkeit (entspricht hoher Bittiefe)
  • Wahl der Quantisierungsgenauigkeit - Quantisierungsrauschen unter Ruhhörschwelle
  • konstante oder variable Quantisierung möglich

Hörbeispiel für Quantisierungsrauschen

Reduktion Bit pro Wert Abtastfreqenz [kHz] Hörbeispiel
keine 16 44.1 O
Bitanzahl 8 44.1 O

2

AUTO

Bei der jeder Digitalisierung eines Analogsignals tritt ein Quantisierungsfehler auf. Bei einem Audiosignal ist dieser Fehler dann als Rauschen, dem sogenannten Quantisierungsrauschen, hörbar. Unser Ohr empfindet dieses Rauschen als Störsignal, dass das Originalsignal überlagert.

Wahl der passenden Quantisierung

Es gilt, je größer die gewählte Quantisierungsgenauigkeit (das entspricht kleineren Quantisierungsintervalen und damit größeren Wortlängen), desto kleiner das Rauschen. Um das Rauschen unhörbar zu machen, muß der Schalldruckpegel des Rauschsignals unter der Hörschwelle liegen. Die Quantisierungsintervalle müssen so gewählt werden, dass bei originalgetreuer Wiedergabe des Audiosignals der Schalldruckpegel des Rauschsignals unter der Hörschwelle unseres Gehörs liegt und damit unhörbar bleibt. Bei der Wahl einer Wortlänge (Auflösung) von 16 Bit oder mehr ist dies erfahrungsgemäß der Fall.

 

Hörbeispiel für Quantisierungsrauschen

Reduktion Bit pro Wert Abtastfreqenz [kHz] Hörbeispiel
keine 16 44.1 O
Bitanzahl 8 44.1 O

AUTO

Für das Audiosignal auf einer Audio-CD wird mit einer Wortlänge von 16 Bit gearbeitet, DAT-Rekorder verwenden eine 18 Bit Auflösung.

Konstante und variable Quantisierung

Bei der PCM 38 Kodierung wird unabhängig vom Charakter des Signals (d.h. egal, ob laut oder leise, hoch- oder tieffrequent) immer mit der gleichen Quantisierungsgenauigkeit und Wortlänge gearbeitet. Bei vielen Audiokomprimierungstechniken hingegen wird mit variabler Wortlänge gearbeitet. Dabei wird zur Bestimmung des maximal zulässigen Quantisierungsrauschens die Hörschwelle unseres Gehörs und dessen Emfpindlichkeit gegenüber Maskierungseffekten als Grundlage genommen.


Notes
(empty)