Current Page: | Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: m04 » Learning Units » Unit ID: 03_09 |
---|---|
Last Modified: | Tuesday, 2015-05-05 - 08:09:06 |
Tools: | Validate — Preview XML Preview HTML Preview PDF |
Alternative: | Printable HTML |
Title: | Grundlagen der digitalen Audiotechnik | ||
---|---|---|---|
Abstract: | Diese Lerneinheit bietet einen Überblick über digitales Audio. Es werden die Vorteile gegenüber analogem Audio erörtert und das Prinzip der Abtastung und der Quantisierung beschrieben, Vor- und Nachteile der linearen und nicht linearen Quantisierung erläutert. Weiters gibt es einen Überblick über mögliche Darstellungsformen eines Audiosignals (Frequenzbereich, Spektogramm, Zeitbereich). | ||
Status: | Eventuell 3 zusätzliche zeichnungen,links to m01, 2 , audio samples and applets missing - does not validate! | Version: | 2005-01-17 |
History: |
2005-02-21 (Martin Hon): emphasis darf keinen Link enthalten 2005-01-17 (thomas migl): math-xml hinzugefügt 2005-01-07 (thomas Migl): nicht funktioiertende Applets entfernt bzw durch link ersetzt 2005-01-05 (Robert Fuchs): Changed some <br> to <p>; audio files not in Greybox yet; added applet 40801 and 40802; does not validate! 2004-11-04 (Thomas Migl): Instruktionen für zwei Applets, Akronyme hinzugefügt 2004-09-23 (Thomas Migl): Abb.- Erklärungen auszeichnungen korrigiert 2004-09-17 (Thomas Migl): fehlende PDA Abb. hinzugefügt 2004-09-15 (Thomas migl): abb. hinzugefügt, applets mit source versehen 2004-08-16 (Robert Fuchs): Checked, fixed and exported for Review #2. 2004-07-29 (Thomas Migl): Bilder (final PC) imporitert +++ ABGESCHLOSSEN:TextLOD1 +LOD2, formeln, Abstract; Hörbeispiele mit migl/public verlinkt, 2 applets als links eingebettet +++ NOCH ZU MACHEN: Abb für PDA, ; Links auf Modul1 müssen erst gelegt werden , applets: Text und Implementierung, (eventuell summary, Hörbeispiele funktionieren nicht???!!! Bilder von Frequenzspektogramm ...fehlt noch +++ VERWENDETE APPLETS: LOD1+2: 40802, 40801 2004-07-23 (Thomas Migl): interaktive Header ausgezeichnet 2004-07-22 (Thomas Migl):TextLOD1 +LOD2, formeln, Abstract; Hörbeispiele mit migl/public verlinkt, 2 applets als links eingebettet 2004-07-21 (Thomas Migl): LU angelegt |
Author 1: | Thomas Migl | E-Mail: | migl@ims.tuwien.ac.at |
---|---|---|---|
Author 2: | Stefan Chung | E-Mail: | (empty) |
Author 3: | Paul Pöltner | E-Mail: | (empty) |
Author 4: | Julian | E-Mail: | (empty) |
Author 5: | (empty) | E-Mail: | (empty) |
Organization: | Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/ |
Motivation1Warum digitales Audio?
Vorteile Digital versus Analog
2Warum digitales Audio?Um Musik, menschliche Stimmen oder allgemeine akustische Ereignisse über Nachrichtenkanäle übertragen beziehungsweise auf Speichermedien archivieren zu können, bedarf es einer geeigneten Aufbereitung akustischer Information. Die ursprünglich analoge Aufbereitungsform wird immer mehr und mehr von der digitalen Audiotechnik abgelöst. Neben qualitativen Aspekten liegt ein Hauptgrund dafür in der Vielfalt, mit welcher ein Signal in digitaler Form kodiert werden kann. So kann ein Signal dem jeweils zur Verfügung stehenden Übertragungs- beziehungsweise Speichermedium durch geeignete Kodierung optimal angepasst werden. Digital versus AnalogFolgende Beispiele sollen einige Vorteile zeigen, die digitales Audio gegenüber analogem Audio bringt
Analog/Digital Konverter1Grundsätzliches
Abbildung: Überblick Analog/Digital Wandlung PCAbbildung: Überblick Analog/Digital Wandlung PDA_Phone2GrundsätzlichesAusgangspunkt jeder elektronischen Repräsentation akustischer Ereignisse ist immer das Mikrofon. Es wandelt eine Schallwelle in ein elektrisches Signal. Die Schallwelle erzeugt Luftdruckschwankungen an der Membran des Mikrofons. Die Bewegung der Membran wird in ein elektrisches Signal gewandelt. Der Spannungsverlauf des elektrischen Signals ist dabei analog den zeitlichen Luftdruckschwankungen an der Membran. Mikrofone können allerdings nur analoge Signale erzeugen. Zur digitalen Repräsentation muss ein so genannter Analog/Digital Konverter erst das analoge in ein digitales Signal wandeln. Abbildung: Überblick Analog/Digital Wandlung PCAbbildung: Überblick Analog/Digital Wandlung PDA_PhoneAbbildung: Überblick Analog/Digital Wandlung PDA_PhoneAm Eingang liegt das analoge elektrische Audiosignal. Durch Abtasten ergeben sich zeitlich diskrete Werte, die Quantisierung ordnet jedem dieser Werte einen diskreten Amplitudenwert zu. Diese werden dann anschließend binär kodiert. Das PCM Signal schließlich ist die binäre Amplituden/Zeitdarstellung des Signals. Abtasten1Prinzip
Nyquist-Shannon Theorem
Welche Abtastfrequenz für welches Signal?
BegriffserklärungenAliasfrequenzWenn Abtastfrequenz niedriger als Nyqistfrequenz Entstehung von Fremdfrequenzkomponenten (=Aliasfrequenzen) Bandbreite
Hörbeispiel Abtastfrequenz
DatenrateDatenrate = Abtastfrequenz x Wortlänge (/Abtastwert) 2PrinzipDas analoge Signal ist immer eine kontinuierliche Funktion der Zeit. Zeitkontinuierliche Signale können aber nicht digital verarbeitet werden, sondern nur Signale mit zeitdiskreten Werten. Beim Abtasten wird in gleichmäßigen Zeitabständen der momentane Amplitudenwert des kontinuierlichen Zeitsignals gemessen und gespeichert (englisch: Sample and Hold). Die Zeitabstände müssen so gewählt werden, dass durch die Diskretisierung keine Information verloren geht, d.h. dass ein digital/analog Konverter mit Hilfe der Abtastwerte die analoge Funktion originalgetreu rekonstruieren kann. Wie oft ein analoges Signal abgetastet werden muss, ohne dabei Informationen zu verlieren, wird durch das Nyquist-Shannon Theorem festgelegt. Nyquist-Shannon TheoremEin abgetastetes Signal lässt sich nur dann wieder hinreichend ohne Informationsverlust rekonstruieren, wenn gilt:
Abtastung eines AudiosignalsEs soll ein Audiosignal so digitalisiert werden, dass keine der hörbaren Frequenzkomponenten verloren gehen. Die für unser Ohr gerade noch hörbare Frequenz ist um die 20kHz. Es muss daher mindestens eine Abtastfrequenz von 40kHz gewählt werden. Welche Abtastfrequenz für welches Signal?Bei der Festlegung einer geeigneten Abtastfrequenz muss zwischen den Merkmalen Aliasfrequenzen, Bandbreite und Datenrate abgewogen werden. Generell gilt:
AliasfrequenzDas Nyquist-Shannon Theorem geht davon aus, dass oberhalb der Maximalfrequenz des analogen Signals wirklich alle Frequenzkomponenten Null sind. In der Praxis aber sind die Frequenzkomponenten, die knapp oberhalb der Maximalfrequenz liegen, zwar stark gedämpft, aber eben nicht absolut Null. Diese Frequenzen erzeugen durch deren Spiegelung an der Abtastfrequenz neue Fremdfrequenzkomponenten, die so genannten Aliasfrequenzen, die unterhalb der Maximalfrequenz liegen. Bei Audiosignalen sind Aliasfrequenzen als zusätzliche Töne hörbar, die im Originalsignal nicht vorhanden waren. Bei der Festlegung der geeigneten Abtastfrequenz wird daher für viele Anwendungen meist ein höherer als der vom Nyquist-Shannon Theorem geforderte Mindestwert gewählt. Applet: Aliasfrequenz applet40802BeschreibungUnter "Aliasing" ("Verfremdung") versteht man die Verfälschung von Bildern oder anderen analogen Informationen bei der Digitalisierung und digitalen Verarbeitung mit einer zu geringen Abtastrate. Die bekannteste Form des Aliasing ist der Moiré-Effekt. Um korrekte und wiederholbare Ergebnisse zu erzielen, muß z.B. jedes Bild mit einer Abtastrate digitalisiert werden, die mindestens doppelt so groß ist wie die Rasterung der Vorlage. Beispielsweise erfordert ein Bild, das mit 150 Linien pro Zoll gerastert ist, einen Scanner der mindestens eine Abtastrate von 300 dpi (Punkte pro Zoll) senkrecht zu den Linien im Bild realisieren kann. Die Abtastrate gibt die Häufigkeit an, mit der eine Messung in einem bestimmten Zeitraum oder einer räumlichen Dimension durchgeführt wird. Üblicherweise wird so eine Abtastrate bei Scanner oder Sound-Digitalisierung angegeben. Die Anwendung zeigt grafisch wie ein untergesampelt-sinusförmiges Signal erscheint. In Bezug auf die Sampling-Theorie kann ein sinusförmiges Signal aus Werte rekonstruiert werden, welche aus diskreten und gleichen Intervallen gesampelt wurden, vorausgesetzt dass die Signalfrequenz weniger als die halbe gesampelte Frequenz ist. Jegliche Komponenten eines gesampelten Signals mit einer Frequenz über dieser Grenzschwelle, werden meist "Folding Frequency" genannt und bezieht sich auf "Aliasing" bzw "Verfremdung". Diese Anwendung basiert auf einer fixen Samplingrate von 8000 samples pro Sekunde (1 Sample alle .0125 Millisekunden). Die folding frequency beträgt dann die Hälfte von 8000 Hz oder 4000Hz. InstruktionenDie Eingangsfrequenz wird in Hertz in das Textkästchen eingetragen. Wenn "Input Signal" angewählt ist und dann der "Plot"-Button betätigt wird, wird das Signal graphisch dargestellt. Mit Hilfe der "Grid"-Checkbox können vertikale Grenzlinien, wo das Signal gesampelt ist, ein- und ausgeblendet werden. "Sample Points" zeigen die gesampelten Werte des Eingangssignals, und können ebenfalls zu- und ausgeschalten werden. Weiters gibt es noch die "Alias Frequency"-Checkbox, welche nur sichtbar ist, wenn die Eingangsfrequenz über 4000 Hz Folding Frequency liegt. Diese Checkbox kontrolliert die bereits dargestellte Grafik eines sinusförmigen Signals. Also at http://www.dsptutor.freeuk.com/aliasing/AliasingDemo.html
BandbreiteAls Bandbreite eines Signals versteht man die Differenz zwischen der im Signal vorkommenden höchsten und tiefsten Frequenz. Aus dem Nyquist-Shannon Theorem sieht man, dass ein enger Zusammenhang zwischen Abtastfrequenz und Bandbreite besteht. Will man ein Signal mit hoher Bandbreite übertragen, muss eine entsprechend hohe Abtastfrequenz gewählt werden. auto
Beispiele zur Veranschaulichung des Zusammenhanges Abtastfrequenz und Bandbreite
DatenrateDie Datenrate ergibt sich aus: Datenrate = Abtastfrequenz x Wortlänge (/Abtastwert) Eine hohe Abtastrate bringt also eine hohe Datenrate mit sich. Wie groß ist die Datenrate des Signals (=Stereosignal) einer Audio-CD?Wortlänge/Abtastwert = 16bit Abtastfrequenz = 44.1kHz 3Link auf Applet AliasfrequenzLink: http://www.dsptutor.freeuk.com/aliasing/AliasingDemo.html Applet: Aliasfrequenz applet40802BeschreibungUnter "Aliasing" ("Verfremdung") versteht man die Verfälschung von Bildern oder anderen analogen Informationen bei der Digitalisierung und digitalen Verarbeitung mit einer zu geringen Abtastrate. Die bekannteste Form des Aliasing ist der Moiré-Effekt. Um korrekte und wiederholbare Ergebnisse zu erzielen, muß z.B. jedes Bild mit einer Abtastrate digitalisiert werden, die mindestens doppelt so groß ist wie die Rasterung der Vorlage. Beispielsweise erfordert ein Bild, das mit 150 Linien pro Zoll gerastert ist, einen Scanner der mindestens eine Abtastrate von 300 dpi (Punkte pro Zoll) senkrecht zu den Linien im Bild realisieren kann. Die Abtastrate gibt die Häufigkeit an, mit der eine Messung in einem bestimmten Zeitraum oder einer räumlichen Dimension durchgeführt wird. Üblicherweise wird so eine Abtastrate bei Scanner oder Sound-Digitalisierung angegeben. Die Anwendung zeigt grafisch wie ein untergesampelt-sinusförmiges Signal erscheint. In Bezug auf die Sampling-Theorie kann ein sinusförmiges Signal aus Werte rekonstruiert werden, welche aus diskreten und gleichen Intervallen gesampelt wurden, vorausgesetzt dass die Signalfrequenz weniger als die halbe gesampelte Frequenz ist. Jegliche Komponenten eines gesampelten Signals mit einer Frequenz über dieser Grenzschwelle, werden meist "Folding Frequency" genannt und bezieht sich auf "Aliasing" bzw "Verfremdung". Diese Anwendung basiert auf einer fixen Samplingrate von 8000 samples pro Sekunde (1 Sample alle .0125 Millisekunden). Die folding frequency beträgt dann die Hälfte von 8000 Hz oder 4000Hz. InstruktionenDie Eingangsfrequenz wird in Hertz in das Textkästchen eingetragen. Wenn "Input Signal" angewählt ist und dann der "Plot"-Button betätigt wird, wird das Signal graphisch dargestellt. Mit Hilfe der "Grid"-Checkbox können vertikale Grenzlinien, wo das Signal gesampelt ist, ein- und ausgeblendet werden. "Sample Points" zeigen die gesampelten Werte des Eingangssignals, und können ebenfalls zu- und ausgeschalten werden. Weiters gibt es noch die "Alias Frequency"-Checkbox, welche nur sichtbar ist, wenn die Eingangsfrequenz über 4000 Hz Folding Frequency liegt. Diese Checkbox kontrolliert die bereits dargestellte Grafik eines sinusförmigen Signals. Also at http://www.dsptutor.freeuk.com/aliasing/AliasingDemo.html
Quantisierung1Prinzip
AudioCD16 Bit Wortlänge 65536 Kodwörter Welche Wortlänge für welches Signal?
Quantisierungsrauschen
Wahl der geeigneten WortlängeQuantisierungsfehler als Quantisierungsrauschen hörbar Audio-CD
Hörbeispiel
Lineare Quantisierung PCLineare Quantisierung PCNicht lineare Quantisierung PCNicht lineare Quantisierung PDA_PhoneDigitale Telefonie tele2002
MPEG AudioNichlineare Quantisierung als Hybridkodierung (siehe Motivation und Überblick) bei MP3 2PrinzipDurch die Abtastung werden in regelmäßigen Zeitabständen Amplitudenwerte abgetastet. Um digital weiter verarbeitbar zu sein, müssen auch die Beträge der durch die Abtastung gewonnenen Werte in einer diskreten Form dargestellt werden, d.h. sie müssen quantisiert werden: Es werden dabei den abgetasteten analogen Werten diskrete Zahlenwerte zugeordnet. Wie viel unterschiedliche Zahlenwerte darstellbar sind, hängt von der Wortlänge (Anzahl der Bitstellen) ab, welche man pro Abtastwert zur Verfügung hat. Es gilt:
Audio für Audio-CDFür Audio-CD wird eine Wortlänge von 16 Bit/Abtastwert verwendet. Mit 16 Bit sind 65536 unterschiedliche Werte darstellbar. Welche Wortlänge für welches Signal?Bei der Festlegung einer geeigneten Wortlänge muss zwischen den Merkmalen Quantisierungsrauschen und Datenrate abgewogen werden. Generell gilt:
QuantisierungsrauschenDie analogen Werte können innerhalb eines bestimmten Wertebereiches, der durch den im Signal vorkommenden kleinsten Amplitudenwert (die kleinste vorkommende Lautstärke) und den größten Amplitudenwert (entspricht der größten vorkommenden Lautstärke) begrenzt ist, jeden beliebigen Wert annehmen, diskrete Zahlenwerte hingegen nur jene Werte, die mit den zur Verfügung stehenden Bitstellen darstellbar sind. Bei der Quantisierung wird dem analogen Abtastwert der ihm am nächst gelegene diskrete Wert zugeordnet. Es kommt daher bei der Quantisierung immer zu einem Fehler, den so genannten Quantisierungsfehler. Der Quantisierungsfehler errechnet sich wie folgt:
Wahl der geeigneten WortlängeBei Wiedergabe des Audisignals wird der Quantisierungsfehler als Quantisierungsrauschen (siehe auch Grundlagen der perzeptuellen Audiokodierung) hörbar. Aus der Gleichung sieht man, dass gilt: Je größer die Wortlänge, umso kleiner das Quantisierungsintervall und umso kleiner der Quantisierungsfehler. Große Wortlängen produzieren somit nur ein geringes Quantisierungsrauschen. Audio-CDIm Standard für Audio-CD hat man die Wortlänge auf 16 Bit festgelegt. Aus empirischer Erfahrung weiß man, dass das durch diesen Wert eingeführte Quantisierungsrauschen für unser Gehör in den meisten Fällen nicht mehr wahrgenommen werden kann.
Lineare Quantisierung PCIm Allgemeinen sind bei der Quantisierung die Quantisierungsintervalle konstant. Man spricht von einer linearen Quantisierung. Durch die Quantisierung können Amplitudenwerte nur bestimmte Werte annehmen. Im Allgemeinen liegen die Werte des analogen Signals aber zwischen zwei solcher möglichen Werte. Den Analogenwerten wird bei der Quantisierung der ihnen am nächstliegenden diskreten Wert zugeordnet. Lineare Quantisierung PDA_PhoneIm Allgemeinen sind bei der Quantisierung die Quantisierungsintervalle konstant. Man spricht von einer linearen Quantisierung. Durch die Quantisierung können Amplitudenwerte nur bestimmte Werte annehmen. Im Allgemeinen liegen die Werte des analogen Signals aber zwischen zwei solcher möglichen Werte. Den Analogenwerten wird bei der Quantisierung der ihnen am nächstliegenden diskreten Wert zugeordnet. Nicht lineare QuantisierungBei der nichtlinearen Quantisierung hingegen variiert die Größe des Quantisierungsintervalles. Im unteren Wertebereich sind die Intervalle klein, im oberen sind sie groß. Abbildung: Nicht lineare Quantisierung PCAbbildung: Nicht lineare Quantisierung PDA_PhoneAbbildung: Nicht lineare QuantisierungNichtlineare Quantisierung: Die Größe der Quantisierungsintervalle ist nicht über den Gesamtenwertebereich konstant. Kleinere Werte werden feiner aufgelöst, größer Werte werden gröber aufgelöst. Warum nichtlineare Quantisierung ?Die Motivation zur nichtlinearen Quantisierung liegt in der Reduktion der Datenrate. Dadurch, dass die Quantisierungsintervalle mit steigender Amplitude immer größer werden, benötigt man geringerer Wortlängen, um die Werte darzustellen. Dass diese Art von Datenreduktion ohne großen Qualitätsverlusten verbunden ist, ist dem Maskierungseffekt aus verdanken (siehe Grundlagen der perzeptuellen Audiokodierung).Aus diesem geht hervor, dass große Amplitudenwerte (größere Lautstärke) ein höheres Maskierungsverhalten gegenüber dem durch die Quantisierung eingeführten Quantisierungsrauschen aufweisen als kleine Amplitudenwerte. Durch die nichtlineare Quantisierung werden kleine Amplitudenwerte sehr fein quantisiert, dementsprechend klein ist daher auch das Quantisierungsrauschen. Große Werte werden gröber quantisiert, dementsprechend groß ist auch das Quantisierungsrauschen, welches aber für unser Ohr nicht wahrnehmbar ist, weil es von der Intensität des Signals maskiert wird. Die nichtlineare Quantisierung wird hauptsächlich für einfache Kompressionsverfahren verwendet. Digitale Telefonie tele2002Audiokodierungsstandard zur digitalen Telefonie:
Durch nichtlineare Quantisierung (logarithmische Skalierung des Wertebereiches) wird mit 8 Bit Wortlänge praktisch die gleiche Sprachqualität erreicht, die sich bei Verwendung linearer Quantisierung mit 14 Bit erreichen ließe. Bei der standardisierten Abtastfrequenz von 8kHz ergibt sich eine Datenrate von 64kBit/s. MPEG AudioAber auch bei komplexen Kodierungsalgorithmen findet die nichtlineare Quantisierung als Komponente einer Hybridkodierung (siehe Motivation und Überblick) Verwendung (z.B. MP3). Darstellungsformen eines Audiosignals1Amplituden/Zeit FunktionBild FrequenzspektrumBild SpektrogrammBild 2autoEs gibt verschiedene Formen, ein Audiosignal zu repräsentieren. Jede Darstellung bietet dabei einen besonderen Aspekt des Signals. Welche Repräsentationsform die günstigste ist, hängt von der jeweiligen Anwendung ab. Beispiel: Algorithmen zur Datenkompression benötigen meist eine Darstellung des Signals, die dessen Frequenzkomponenten zeigen, Algorithmen wiederum die entscheiden können sollen, ob es sich bei einem Audiosignal um eine Sprachaufnahme oder nicht handelt, benötigen eine Amplituden/Zeit Funktion etc. Amplituden/Zeit FunktionAus dem Amplituden/Zeit Diagramm kann man ablesen, welche Intensität das Signal zu welchem Zeitpunkt hat. Sie ist die ursprünglichste der verschiedenen Repräsentationsformen. Schallwandler (Mikrofone, Lautsprecher) können nur mit dieser Repräsentationsform von Audio arbeiten. Es fehlt Bild!!!! FrequenzspektrumIm Frequenzspektrum wird angezeigt, welche Frequenzen mit welcher Intensität im Audiosignal vorhanden sind. Aus dem Frequenzspektrum kann man allerdings nicht lesen, zu welchem Zeitpunkt entsprechende Frequenz signifikant wird. Es fehlt Bild!!!! VorteileAus dem Frequenzspektrum kann man erkennen, welche Bandbreite das Signal hat, ob es sich um ein eher helles oder dumpfes Audiosignal handelt, ob vorwiegend harmonische Anteile vorhanden sind oder ob Geräusche im Gesamtklang dominieren. SpektrogrammDiese Darstellungsform ist eine Kombination aus Amplituden/Zeit Diagramm und Frequenzspektrum. Es zeigt an, zu welchem Zeitpunkt welche Frequenzen welche Intensitäten aufweisen. Das Spektrogramm bietet somit die aussagekräftigste bildliche Darstellung eines Audiosignals. Diese komplexe Darstellung macht man sich zum Beispiel in Audioretrievalsysteme (siehe Audioretrieval) zu Nutze. Es fehlt Bild!!!! VorteileEs sollen Klangdateien auf Ähnlichkeit untersucht werden. Dazu können deren Spektrogramme mit den gleichen Algorithmen untersucht werden, die auch für Imageretrieval robert link auf m5LU8 setzen verwendet werden. |
(empty) |