Wollermann, Tobias: Musik und Medium

von etwa 75 Minuten auf zweieinhalb bis vier Stunden erhöhen, ohne Abstriche bei der Klangqualität machen zu müssen. Eine solche Kodierung eignet sich auch für die Übertragung von Audiodaten in Netzwerken. Die populärsten Formate zur verlustfreien Audio-Kompression sind Monkey’s Audio und LPAC. Die Tonqualität ist hier immer mit dem Original identisch. Das Problem, das sich bei einer verlustfreien Kompression generell einstellt geht aus der Tatsache hervor, dass, anders als bei Text- oder Bilddateien, der Fall einer identischen Wiederholung sehr selten eintritt. Die bei Kompressionen⁴³

⁴³Z. B. bei ZIP- oder RAR-Anwendungen.

üblicherweise verwendeten Huffmann- oder Lempel-Ziv-Algorithmen sind aber genau auf solche identischen Wiederholungen angewiesen. Aus diesem Grund setzten die meisten verlustfreien Kompressoren ein prädikatives Coding ein. Dabei wird das Signal in einen Musik- und in einen Rausch-Anteil zerlegt. Wenn diese Zerlegung gut funktioniert, ist der Rauschanteil idealerweise ein gaußsches Weißes Rauschen,⁴⁴

⁴⁴In Analogie zum optischen Eindruck des weißen Lichts spricht man vom Weißen Rauschen, wenn alle Frequenzanteile gleichmäßig über den gesamten hörbaren Frequenzbereich verteilt sind und ihre Amplituden ungefähr gleich groß sind. Zischen, Meeresrauschen etc. entsprechen dem Höreindruck des Weißen Rauschens. Vgl. dazu auch [Enders(1997), S. 249f.].

das sich dann mit den bereits erwähnten Verfahren gut komprimieren lässt. Da aber nur der Rauschanteil komprimiert wird, schaffen verlustfreie Audiocoder im Idealfall eine Kompression um 50 %. Der Durchschnitt beträgt ungefähr 75 %, hängt aber sehr stark von der jeweiligen Datei bzw. dem Musikstück ab. Trotz der sehr guten Qualität sind Monkey’s Audio oder LPAC für den Normal-Nutzer eher ungeeignet, da die Dateien auch nach der Komprimierung noch sehr groß sind. Für Anwendungen im Tonstudio oder DJ-Bereich ist das Format aber bestens geeignet.

Bei der verlustbehafteten Audio-Kompression werden nicht nur redundante sondern auch irrelevante Informationen entfernt. Hierbei handelt es sich um Informationen, die vom menschlichen Gehör normalerweise nicht wahrgenommen werden. Das sind etwa Signale, die außerhalb des menschlichen Hörvermögens liegen. Hier spielt zunächst die adaptive Hörschwelle (adaptive hearing threshold) eine große Rolle. Sie ist nicht nur vom Individuum, sondern auch von der Frequenz abhängig. In der Regel ist das menschliche Gehör zwischen 1 und 5 kHz am empfindlichsten. Daten können auch mit Hilfe der so genannten Maskierung, hier unterscheidet man zwischen simultaner und temporaler Maskierung, komprimiert werden. Eine simultane Maskierung tritt dann auf, wenn ein Klangsignal das andere überdeckt, so dass es vom menschlichen Gehör nicht mehr wahrgenommen wird.⁴⁵

⁴⁵Z. B. nimmt man das Motorgeräusch eines Autos nicht mehr wahr, wenn der Fahrer zugleich hupt.

Bei der temporalen Maskierung handelt es sich um einen Spezialfall der simultanen Maskierung der darauf basiert, dass das Gehör nach einem lauten Signal eine Zeit (ca. 5 bis 200ms) braucht, um wieder leise Signale wahrzunehmen.⁴⁶

⁴⁶Interessanterweise tritt dieser Effekt auch auf, wenn ein lauter Ton einem leisen folgt. Dann ist die Zeitspanne aber wesentlich geringer.

Eine weitere Möglichkeit, Daten zu komprimieren bietet das Joint-Stereo-Verfahren. Bei Stereoaufnahmen unterscheiden sich die beiden Kanäle meist nur geringfügig. Auf einer CD sind aber trotzdem beide Kanäle einzeln gespeichert. Bei dem Joint-Stereo-Verfahren wird auf beiden Kanälen das gleiche Signal verwendet, das heißt,