Current Page: | Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m04 » Learning Units » Unit ID: 03_08 |
---|---|
Last Modified: | Tuesday, 2015-05-05 - 08:09:08 |
Tools: | Validate — Preview XML Preview HTML Preview PDF |
Alternative: | Printable HTML |
Title: | Grundlagen der perzeptuellen Audiokodierung | ||
---|---|---|---|
Abstract: | Die Psychoakustik beschäftigt sich mit den in unserem Bewußtsein auftretenden Hörerscheinungen. Sie versucht, die psychischen Empfindungen, die durch akustische Reize ausgelöst werden, qualitativ und quantitativ zu erfassen, zu beschreiben und zu erklären. Sie gibt Aufschluss darüber, was wir hören und was nicht . In der Audiocodierungstechnik bedient man sich der Psychoakustik, um nur wirklich hörbare Informationen eines Audiosignals codieren zu müssen. Diese Lerneinheit erklärt die für die Audiokodierung wichtigen Hörphänomene Hörbereich, Maskierungseffekt und kritische Bandbreite. Weiters wird der Begriff "Quantisierungsrauschen" eingeführt und dessen psychoakustische Wirkung auf das menschliche Gehör erörtert. | ||
Status: | Audiofiles not in Greybox yet | Version: | 2005-01-05 |
History: | 2005-01-05 (Robert Fuchs): Fixed buggy lists; captions missing, two links dead; added applet 40701; audio example still as links, not part of Greybox yet; does not validate! 2004-11-05 (Thomas Migl): 2 Links auf applet in LOD3 hinzugefügt, Akronyme hinzugefügt 2004-09-09 (Thomas Migl): pda Abbildung hinzugefügt. 2004-08-16 (Robert Fuchs): Checked, fixed and exported for Review #2. 2004-07-29 (Thomas Migl): Abb PDA final importiert +++++++ TO DO:; Impl. applet 40701 und applet firat-wiesner 2004-07-29 (Robert Fuchs): Fixed HTMLAuth2 gremlins. 2004-07-29 (Thomas Migl): Bilder (final PC) improtiert, Hörbeispiel hinzugefügt, Platzhalter für Applet 40701 2004-07-27 (Robert Fuchs): Manual import into the Greybox; some re-tagging since this unit was rather old (was our first "completed" one). 2004-03-12 (Robert Fuchs): Closed for 50% Content Deadline import in Scholion. 2004-03-11 (Thomas Migl): LOD1-Header added 2004-03-08 (Robert Fuchs): Fixed bug where bExplanation was attached to image. 2004-03-05 (Robert Fuchs): Put sources into CorPU title where neccessary; glossary entries and acronyms are tagged as xIgnore; removed dummy entries for LOD 3. 2004-03-04 (Thomas Migl): Abstract hinzugefügt 2004-02-27 (HTMLContentTools): Replaced old numeric source refs by new alphanumeric ones. 2004-02-26 (Robert Fuchs): Upgrade from old LU 400, version 2003-12-03. 2004-02-25 (HTMLContentTools): Created skeleton page. 2003-12-03 (Robert Fuchs): Import von Version 2003-08-23 aus HTML Authoring Systeme v.1 |
Author 1: | Thomas Migl | E-Mail: | migl@ims.tuwien.ac.at |
---|---|---|---|
Author 2: | (empty) | E-Mail: | (empty) |
Author 3: | (empty) | E-Mail: | (empty) |
Author 4: | (empty) | E-Mail: | (empty) |
Author 5: | (empty) | E-Mail: | (empty) |
Organization: | Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/ |
Psychoakustik1AUTO
2AUTODie Psychoakustik beschäftigt sich mit den in unserem Bewußtsein auftretenden Hörerscheinungen. Sie versucht, die psychischen Empfindungen, die durch akustische Reize ausgelöst werden, qualitativ und quantitativ zu erfassen, zu beschreiben und zu erklären. Sie gibt Aufschluss darüber, was wir als hörbar empfinden und was nicht. eska1997, 160 AUTODie Grundidee der perzeptuellen Audiokodierung besteht nun darin, akustische Ereignisse, die das menschliche Gehör ohnehin nicht wahrnehmen kann, aus dem Audiosignal zu entfernen. Dies führt zu einer deutlichen Datenkomprimierung, die zwar verlustbehaftet ist, wobei der Unterschied zum unkomprimierten Original für unser Ohr im Idealfall aber nicht wahrnehmbar ist. Hörbereich krem20041AUTODie Hörfähigkeit unseres Gehörs hat Grenzen hinsichtlich Frequenz und Schallintensität der Schallquelle. Frequenzbereich
Schallintensität
2AUTOUnser Gehör kann nur akustische Ereignisse innerhalb eines bestimmten Frequenz- und Schallpegelbereichs wahrnehmen. FrequenzbereichEin junger, gesunder Mensch kann Töne in einem Frequenzbereich von ca. 20 Hz 500 bis 20 kHz wahrnehmen. SchallintensitätsbereichRuhehörschwelleAkustische Signale müssen einen gewissen Mindestschallpegel aufweisen, um wahrgenommen zu werden. Dieser Mindestschallpegel ist stark frequenzabhängig. Tiefe und sehr hohe Töne müssen, um von uns gehört zu werden, einen größeren Schalldruckpegel aufweisen als Töne mittlerer Frequenzen. Diesen Mindestschallpegel bezeichnet man als Hörschwelle. SchmerzschwelleEine weitere Grenze unseres Gehörs ist die Schmerzschwelle, ab der das akustische Signal auf Grund seiner hohen Schallintensität als physischer Schmerz empfunden wird. Diese Grenze spielt für die Datenreduktion allerdings keine Rolle. Frequenzabhängigkeit des Hörbereichs krem20041Abbildung: Frequenzabhängigkeit des Hörbereichs PCAbbildung: Frequenzabhängigkeit des HörbereichsPDA_Phone2Abbildung: Frequenzabhängigkeit des HörbereichsPCDem Diagramm sind auf der x-Achse die Frequenzen (Tonhöhe) in Hz, auf der y-Achse deren Schallpegel (entspricht der Schallintensität) in Dezibel 501 zu entnehmen. RuhehörschwelleDie untere Kurve, die sogenannte Ruhehörschwelle, zeigt den frequenzabhängigen Minimalwert für die Schallintensität eines Tones an, der erreicht werden muss, um vom menschlichen Ohr noch wahrgenommen werden zu werden. Diese Kurve gilt nur, wenn ein einziger Ton gespielt wird und sonst akustische Ruhe herrscht. Werden mehrere Töne gleichzeitig gespielt, ändert sich auch die Ruhehörschwelle (siehe Maskierungseffekt). Man sieht, dass im Bereich von 1kHz-4kHz unser Gehör die größte Sensibilität aufweist. Dieser Bereich ist auch für die Sprachverständlichkeit am wichtigsten. Hier unterscheidet unser Ohr zwischen den verschiedenen Vokalen. Auf höhere und tiefere Frequenzen reagiert unser Ohr unempfindlicher. Die Hörschwellkurve zeigt typische Messwerte, die für einen jungen Menschen gelten. Mit steigendem Alter wird das Ohr auf tiefe und hohe Töne immer unempfindlicher. SchmerzschwelleAb der Schmerzschwelle wird der Schall als Schmerz empfunden. Es können keine unterschiedlichen Töne mehr differenziert werden. Setzt man sein Gehör langfristig Schalldruckpegeln oberhalb der Schmerzschwelle aus, verliert es an Leistungsfähigkeit. Abbildung: Frequenzabhängigkeit des HörbereichsPDA_PhoneRuhehörschwelleDie untere Kurve, die sogenannte Ruhehörschwelle, zeigt den frequenzabhängigen Minimalwert für die Schallintensität eines Tones an, der erreicht werden muss, um vom menschlichen Ohr noch wahrgenommen werden zu werden. Diese Kurve gilt nur, wenn ein einziger Ton gespielt wird und sonst akustische Ruhe herrscht. Werden mehrere Töne gleichzeitig gespielt, ändert sich auch die Ruhehörschwelle (siehe Maskierungseffekt). Man sieht, dass im Bereich von 1kHz-4kHz unser Gehör die größte Sensibilität aufweist. Dieser Bereich ist auch für die Sprachverständlichkeit am wichtigsten. Hier unterscheidet unser Ohr zwischen den verschiedenen Vokalen. Auf höhere und tiefere Frequenzen reagiert unser Ohr unempfindlicher. Die Hörschwellkurve zeigt typische Messwerte, die für einen jungen Menschen gelten. Mit steigendem Alter wird das Ohr auf tiefe und hohe Töne immer unempfindlicher. SchmerzschwelleAb der Schmerzschwelle wird der Schall als Schmerz empfunden. Es können keine unterschiedlichen Töne mehr differenziert werden. Setzt man sein Gehör langfristig Schalldruckpegeln oberhalb der Schmerzschwelle aus, verliert es an Leistungsfähigkeit. Maskierungseffekt krem2004 eska1997, 1841AUTO
Applet Maskierungseffekt applet40701Also available at http://www.cs.ubc.ca/spider/kvdoel/jass/masking/masking.html 2AUTOViele Audiokomprimierungstechniken nutzen den "Maskierungseffekt", ein menschliches Hörphänomen, das dann auftritt, wenn ein ursprünglich hörbares Audiosignal von einem frequenzähnlichen, aber lauteren Audiosignal überlagert wird. Das schwächere Audiosignal ist plötzlich für unser Gehör nicht mehr wahrnehmbar, es wurde "maskiert". AUTODieses Hörphänomen begegnet uns immer wieder im Alltag, etwa, wenn wir ein Gespräch führen und dann plötzlich das Radio laut aufgedreht wird oder ein Auto vorbeifährt: Es ist nicht mehr möglich, den Gesprächspartner zu verstehen. Je höher nun die Lautstärke der Störquelle gegenüber unserer Gesprächslautstärke wird, desto geringer die Verständlichkeit. Ab einer gewissen Störlautstärke wird die Stimme unseres Gesprächpartners unhörbar. Die Störquelle hat unser Gespräch maskiert. Um dieses Hörphänomen auch mathematisch beschreiben zu können, wird der Begriff des Maskierungsschwellwertes definiert. AUTODer Maskierungsschwellwert des Maskierers gibt den minimalen Schalldruckpegel an, den ein schwächeres Signals aufweisen muss, um gerade noch gehört zu werden. Das lautere Signal wird dabei als Maskierer bezeichnet. Alle akustischen Signale, deren Lautstärke unter diesen Wert liegen, sind für unser Gehör nicht mehr wahrnehmbar. AUTODieser Maskierungsschwellwert ist stark frequenzabhängig. Ein Ton kann dabei nur jene Töne maskieren, deren Frequenzen in unmittelbarer Nähe seiner eigenen liegen. Für die Audiokompromierungstechnik ist in diesem Zusammenhang weiters noch der Umstand von Bedeutung, dass tonale und atonale Schallereignisse verschiedene Maskierungseigenschaften besitzen. Applet Maskierungseffekt applet40701Kurzbeschreibung
Instruktionen
Also available at http://www.cs.ubc.ca/spider/kvdoel/jass/masking/masking.html Mithörschwellen bei Maskierung krem2004 eska1997, 1841Abbildung: Mithörschwellen bei Maskierung PCAbbildung: Mithörschwellen bei MaskierungPDA_Phoneere 2Abbildung: Mithörschwellen bei Maskierung PCDas Diagramm zeigt, wie ein Ton die Hörschwelleneigenschaft unseres Gehörs beeinflusst. Es werden dabei die Maskierungseigenschaften eines Schmalbandrauschens (Mittenfrequenz 1 kHz, Bandbreite 160 Hz) bei unterschiedlicher Schallintensität 20-100 dB 502 untersucht. Die rote Linie zeigt die Ruhehörschwelle unseres Ohres, wenn das Signal ausgeschaltet ist. Wenn das Schmalbandrauschen eingeschaltet wird, werden auch unsere Ruhehörschwellwerte entsprechend verändert (blaue Kurve). Aus der Darstellung lässt sich entnehmen, dass Töne, deren Frequenzen in unmittelbarer Nähe des maskierenden Signals liegen, stark verdeckt werden, während Töne mit weitentfernten Frequenzen vom Maskierungseffekt weitgehend unberührt bleiben. Abbildung: Mithörschwellen bei Maskierung PDA_PhoneDas Diagramm zeigt, wie ein Ton die Hörschwelleneigenschaft unseres Gehörs beeinflusst. Es werden dabei die Maskierungseigenschaften eines Schmalbandrauschens (Mittenfrequenz 1 kHz, Bandbreite 160 Hz) bei unterschiedlicher Schallintensität 20-100 dB untersucht. Die rote Linie zeigt die Ruhehörschwelle unseres Ohres, wenn das Signal ausgeschaltet ist. Wenn das Schmalbandrauschen eingeschaltet wird, werden auch unsere Ruhehörschwellwerte entsprechend verändert (blaue Kurve). Aus der Darstellung lässt sich entnehmen, dass Töne, deren Frequenzen in unmittelbarer Nähe des maskierenden Signals liegen, stark verdeckt werden, während Töne mit weitentfernten Frequenzen vom Maskierungseffekt weitgehend unberührt bleiben. Kritische Bandbreite (Critical Band) eska1997, 124 watk2001, 481AUTO
Applet Kritische Bandbreite applet40701
2AUTODie begrenzte frequenzabhängige Tonhöhenauflösung unseres Gehörs ist weiterer psychoakustischer Effekt, der für die Audiokomprimierung von Bedeutung ist. Die Frequenzen von gleichzeitig erklingenden Tönen müssen einen bestimmten Mindestabstand von einander haben, damit sie von unserem Ohr auch als Töne verschiedener Tonhöhe wahrgenommen werden können. Töne die innerhalb dieses Mindestabstandes, der sogenannte "Kritischen Bandbreite", liegen können von uns nicht mehr getrennt voneinander wahrgenommen werden, sondern werden als Schwebung empfunden. eska1997, 124 AUTOFür Töne unter 500 Hz hat die kritische Bandbreite konstant ca. 100 Hz, für Töne über 500 Hz beträgt sie ungefähr 20% der Frequenz selbst, was ungefähr einem Tonabstand von einer kleinen Terz entspricht. Die kritische Bandbreite ist nur bei gleichzeitig erklingenden Tönen gültig. Bei der Wahrnehmung zweier hintereinander gespielten Einzeltönen ist die Frequenzauflösung unseres Ohres ungleich größer. Für die Audiokomprimierung ist die kritische Bandbreite von Bedeutung, da viele psychoakustische Effekte mit diesen Frequenzbändern in Zusammenhang stehen. 3Applet Kritische Bandbreite applet40701Kurzbeschreibung
Instruktionen
Quantisierungsrauschen watk2001, 2201AUTO
Hörbeispiel für Quantisierungsrauschen
2AUTOBei der jeder Digitalisierung eines Analogsignals tritt ein Quantisierungsfehler auf. Bei einem Audiosignal ist dieser Fehler dann als Rauschen, dem sogenannten Quantisierungsrauschen, hörbar. Unser Ohr empfindet dieses Rauschen als Störsignal, dass das Originalsignal überlagert. Wahl der passenden QuantisierungEs gilt, je größer die gewählte Quantisierungsgenauigkeit (das entspricht kleineren Quantisierungsintervalen und damit größeren Wortlängen), desto kleiner das Rauschen. Um das Rauschen unhörbar zu machen, muß der Schalldruckpegel des Rauschsignals unter der Hörschwelle liegen. Die Quantisierungsintervalle müssen so gewählt werden, dass bei originalgetreuer Wiedergabe des Audiosignals der Schalldruckpegel des Rauschsignals unter der Hörschwelle unseres Gehörs liegt und damit unhörbar bleibt. Bei der Wahl einer Wortlänge (Auflösung) von 16 Bit oder mehr ist dies erfahrungsgemäß der Fall.
Hörbeispiel für Quantisierungsrauschen
AUTOFür das Audiosignal auf einer Audio-CD wird mit einer Wortlänge von 16 Bit gearbeitet, DAT-Rekorder verwenden eine 18 Bit Auflösung. Konstante und variable QuantisierungBei der PCM 38 Kodierung wird unabhängig vom Charakter des Signals (d.h. egal, ob laut oder leise, hoch- oder tieffrequent) immer mit der gleichen Quantisierungsgenauigkeit und Wortlänge gearbeitet. Bei vielen Audiokomprimierungstechniken hingegen wird mit variabler Wortlänge gearbeitet. Dabei wird zur Bestimmung des maximal zulässigen Quantisierungsrauschens die Hörschwelle unseres Gehörs und dessen Emfpindlichkeit gegenüber Maskierungseffekten als Grundlage genommen. |
(empty) |