Technische Artikel
Der Vorteil von 96kHz

Angesichts der steten Nachfrage nach verbesserter Qualität bei Audioaufzeichnungen und der aktuellen Diskussion um 96kHz- und sogar 192kHz als Basis für die Darstellung von Audiosignalen, möchten wir auf dieser Seite einmal verdeutlichen, worin der prinzipielle Vorteil höherer Abtastfrequenzen bei der Digitalisierung und Wiedergabe von Audiosignalen liegt.

Jedes reale Schallsignal besteht zunächst aus einem Gemisch von allen erdenklichen Frequenzen (Einzeltonen), die sich am Ohr als Luftdruck äussern und zu Schwingungen des Trommelfelles führen. Bildlich betrachtet, entsprechen diese Schwingungen auch der sich fortwährend ändernden Position einer Membran in einem Lautsprecher ("Hifi-Box"). Dass nun in der Musik bestimmte Tonfrequenzen (bedingt, durch die jeweilige Stimmung der Instrumente) besonders stark auftreten und andere weniger oder eventuell überhaupt nicht, soll uns hier nicht stören. Das Ohr trennt nun "bauartbedingt" dieses komplexe Schwingungsgefüge in eine Summe zeitgleicher Einzelschwingungen: Verschieden lange Sinneshaare im Innenohr schwingen auf der für sie typischen Frequenz mit und erzeugen einen Reiz im Gehirn. Dabei wird z.B. von einem jedem Instrument der Grundton und dessen Obertöne wahrgenommen. Die Obertöne sind zusätzlich auftretende Nebenschwingungen, die bauartbedingt i.d.R. ganzzahlige Vielfache der Grundschwingung sind, weil sowohl in Festkörpern (Instrumentenholz, Pfeifen) als auch auf Saiten, jeweils die Schwingungen aktiv sind, deren Wellenlänge 1x oder mehrfach in die gegebene (oder gegriffene) Länge hineinpasst. Sehr obertonreiche Instrumente klingen dabei spitzer.

Auch rein mathematisch lässt sich jedes Schwingungsgefüge in eine Summe einander überlagerter Einzelschwingungen darstellen: Ausgehend von einer sogenannten Grundschwingung, die dem niedrigsten Tonanteil entspricht, definiert man ganzzahlige Vielfache dieser Grundwelle und kann so jede beliebige Wellenform durch Angabe der Amplitude des Einzelfrequenzanteiles darstellen. Dieses Verfahren nennt man Fourieranalyse. Im Prinzip ist es dabei vollkommen egal, wieviele Instrumente mit welchem Obertonanteil erklingen: Am Ende lässt sich alles in dieses System der Grund- und Oberwellen "einsortieren" und vereinfacht betrachten. Will man nun ein Schallsignal darstellen und wiedergeben, so müessen eigentlich alle diese Frequenzanteile aufgenommen, übertragen und später wiedergegeben werden.

Nun ist es jedoch so, daß das menschliche Gehör nur Frequenzen im Bereich von ca 30-40 Hz und 12000 Hz - 15.000 Hz mehr oder weniger gut erfassen kann. Außerhalb dieses Bereiches wird nur schwach oder gar nicht gehört: Zieht man die minimale Hörschwelle als Maß heran und berücksichtigt das unterschiedliche Hörvermögen aller Menschen, so kann man davon ausgehen, dass der Hörbereich auch sehr gut hörender Menschen von etwa 16Hz bis 20.000 Hz reicht. Es genügt also, nur diese Frequenzen zu übertragen. ->

Bei der Digitalisierung eines analogen Datenstromes stellt sich nun die Frage, wie oft man diese Werte abtasten (und damit "abspeichern) muss und was man darüber hinaus noch zu unternehmen hat, um das Signal korrekt zu erfassen und später wiedergeben zu können. Sieht man sich den Verlauf eines solchen Audiosignals im Detail an, so erkennt man, daß dieser in Bögen verläuft. Die Geschwindigkeit, mit der sich das Signal während einer bestimmten Zeitspanne ändert- bildlich durch die "Enge" der Bögen, bzw. den optischen Anstieg des Signals dargestellt - hängt direkt mit der Frequenz zusammen: Die höchste Frequenz erzeugt die schnellsten Änderungen, niedrige Frequenzen stellen sich bildlich nur als schwach ansteigende Rampe dar. Intuitiv wird deutlich, daß die höchste Frequenz im Signalgemisch das Problem ist, und die Abtastfrequenz bedingt: Der Extremfall liegt vor, wenn die gesamte Lautstärke nur in diesem einen Signal von z.B. 20kHz besteht - dann ist der Anstieg auch optisch am steilsten.

Um nun diese Oberwelle (und damit indirekt auch alle "langsameren" Wellen) mathematisch eindeutig zu erfassen, müssen 2 Punkte gleichen Abstandes gemessen und gespeichert werden. Diese beiden Punkte reichen, da die Verlaufsform der Welle immer eine sog. Sinuswelle ergibt, und damit bekannt ist. Bei der späteren Umwandlung eines digitalen Datenstromes in einen analogen, muss dann "nur noch" diese Sinuswelle mit dieser Frequenz erzeugt werden. Dazu wird ein sogenanntes Rekonstruktionsfilter (technisch ein sogenantes Tiefpassfilter) benutzt, welches eine gewisse Trägheit hat und nach einer Anregung mit exakt solch einer Wellenform reagiert- ähnlich wie ein angestossene Schaukel. Die Trägheit dieses Filters führt real nun dazu, daß Frequenzen unterhalb einer gewissen Grenzfrequenz fast gar nicht, und Frequenzen oberhalb der Grenzfrequenz zunehmend mehr gedämpft werden. Der Ausgang des Filters ermittelt sozusagen automatisch wieder neue Zwischenwerte, die zuvor bei der Abtastung nicht miterfasst wurden, in der richtigen Weise. ->Interpolation.

Als Ergebnis dieser Betrachtung ergibt sich, daß die wichtigste Kenngröße dieses Filters (die sogenannte Filtereckfrequenz) im Bereich 20kHz liegen muss und die Abtastfrequenz für Audiodaten damit mindestens ca. 40kHz betragen soll. Die durch das Rekonstruktionsfilter bei dieser definierten Abtastfrequenz erzeugte Spannung kann dann langsamen Änderungen tieferer Tonanteile bequem folgen, wodurch die Interpolation auch bei tiefen Tönen klappt. Mit der CD-Frequenz von 44 kHz sollte sich also alles hörbare darstellen lassen. Praktisch ergeben sich hier jedoch Probleme :

Die "Trägheit" des Filters ist für Frequenzen oberhalb der Grenzfrequenz eben nicht beliebig hoch. Da diese je nach Tonhöhe mehr oder weniger gut dargestellt sind, werden zu hohe Frequenzanteile im Datenstrom falsch dargestellt und führen mitunter zu hörbaren Frequenzen- wenn auch mit sehr geringer Lautstärke!  Ausserdem muss auch eingangsseitig verhindert werden, dass ein hochfrequenter Anteil oberhalb des Hörbereichs den Messwert im Moment der Abtastung verfälscht, was ebenfalls durch ein Tiefpassfilter gelöst werden kann. Das Ziel muss also sein:

a) Frequenzen oberhalb der Übertragungsgrenze bei der Aufnahme möglichst herauszuhalten
b) die analog aufgenommene hochfrequenten Anteile vor der Abtastung zu dämpfen
c) die noch enthaltenen Anteile korrekt zu wandeln
d) diese Anteile bei der Bearbeitung möglichst korrekt beizubehalten
e) diese Anteile bei der Wandlung im Rekonstruktionsfilter korrekt zurückwandeln

Die Anforderung a) wird z.T. bereits in Mikrofonen und den Vorverstärkern gelöst, die das Signal analog auf den hörbaren Bereich begrenzen. Solange die Eckfrequenzen dieser Filter weit genug vom Übetragungsbereich entfernt sind, liegt keinerlei Deformation in der Klangkurve vor.

Der Aspekt b) wird durch das Tiefpassfilter vor dem AD-Wnadler gelöst. Dieses sogenannte Anit-Alisaingfilter verhindert, daß der hochfrequente Anteil im Signale leichte Zufallswerte bei der Wandlung erzeugt. Der aktuelle Analogwert ist ja immer eine Summe aller Frequenzen und damit durch die unerwünschten Oberwellen verfälscht. Unterstützt wird dieser Prozess durch das sogenannte Oversampling (Überabtastung): Jeder Wert wird mehrfach abgestastet und zu einem Mittelwert verrechnet. Alles, was sich während des Abtastintervalls (also zu schnell) ändert, wird so gedämpft.

Beim Punkt c) wird nun der Anteil an Hochfrequenz betrachtet, der nicht durch die vorherigen Dämpfungen verschwunden ist. Dieser wird bei der Abtastung nun falsch erfasst und zwarnach Massgabe der Interferenz des analogen Signalanteils (jeweilge Oberwelle) mit der Abtastfrequenz, wo nun die 96kHz erstmalig ins Spiel kommen.

Wie unter d) erwähnt, ist es auch wichtig, dass nicht etwa durch eine falsche Bearbeitung, z.B. durch Resampling, Filtereffekte o.ä. der hochfrequente Signalanteil nichtlinear deformiert wird, wodurch niederfrequentere und damit wieder hörbare Signalanteil entstehen könnten. Der Beibehalt der zeiltichen Auslösung des Signales (unveränderte Samplingfrequenz) bei der Bearbeitung ist daher wichtig.

Beim Schritt e) wird durch ein adäquates Tiefpassfilter (dem bereits erwähnten Rekonstruktionsfilter) aus dem digitale Datenstrom wieder ein Analogsignal erzeugt. Die hochfrequenten Anteile oberhalb der Grenzfrequenz werden dabei weiter abgesenkt und führen sofern noch vorhanden auch im späteren Audiosignal nur zu analogen Signalanteilen oberhalb des Hörbaren, was unkritisch ist. ->

Wozu nun 96kHz?

Bei Tiefpassfiltern hat man immer die Wahl zwischen flachen Filtern, die recht linear verlaufen und hohe Frequenzen mit z.B. Faktor 2 je Oktave dämpfen, sowie Filtern, die mit einem Mehrfachen dämpfen, dafür aber im Bereich der Grenzfrequenz stark verzerren (also die Lautstärke nicht korrekt erfassen). Es ist also immer ein Kompromiss gefragt.

Betrachten wir nun das Antialiasing-Filter: Im Falle eines 44kHz-Systemes muss die Grenzfrequenz im Bereich 15-16 kHz liegen, und zudem der Filter recht steil sein. Damit liegen Verzerrungen im Bereich höherer Frequenzen vor. Ein 96kHz-System kann es sich dagegen "erlauben", mit einer Grenzfrequenz deutlich ausser dem Hörbereich zu arbeiten (z.B. 25kHz -> daher keine Verzerrungen im Hörbereich) und auch ein flacheres Filter zu nutzen. Zwar sind dann effektiv deutlich mehr Oberwellen im Bereich 25kHz-40kHz im Mix enthalten, doch werden diese ja am Ausgang korrekt(er) gewandelt (s.u.) und stören insgesamt weniger.

Eine ähnliche Betrachtung gilt für das bereits angesprochene Ausgangsfilter: In einem 44kHz-System muss dieses Filter recht steil sein, um die gewünschte Filterträgheit zu erzeugen, was man sich jedoch durch neue Verzerrungen erkauft. Im 96kHz-System dagegen hat man es wieder einfacher : Es können Frequenzen bishin zu 48kHz korrekt dargestellt werden. Daher legt man die Eckfrequenz weit ausserhalb des Hörbereiches und nutzt diesmal ein sehr steiles Filter z.B. bei 30-40kHz : Es schneidet wesentlich besser ab und erfüllt also seine theoretische Aufgabe viel besser : Es entstehen im Analogsignal weniger falsche Frequenzanteile, welche auch noch eine Oktave Abstand zum hörbaren Bereich haben und daher statistisch überwiegend im Unhörbaren liegen. Der theoretische Nachteil des steilen Filters wirkts sich aber nicht aus, da die Verzerrungen auch im unhörbaren Bereich liegen!

Und was ist die Wirkung:

Die Tatsache, daß sich trotz einer praktischen Verdopplung der Datenmenge kein Quantensprung im Klangerlebnis ergibt, laesst sich damit begründen, daß der Anteil von Höhen im Bereich über 10kHz generell recht gering ist und daher nicht so sehr ins Gewicht fällt. Generell laesst sich jedoch bilanzieren, daß die Verwendung eines 96kHz-Systemes einige faule Kompromisse des 44kHz-Systemes beseitigt, welche im Bereich der korrekten Repräsentation des Oberwellengehaltes in Audiodaten liegen. Musikalisch gesprochen, werden die Höhen korrekter dargestellt, was sich z.B. beim gesprochenen "s" und "t" sowie in mehr Brillianz bei klassischen Musikinstrumenten aeussert.

Die Exaktheit der Oberwellenrepräsentation eines Übertragungssystemes hängt direkt mit dem sog. Transientenverhalten zusammen: Schnelle Impulsänderungen können von einem feiner abgetasteten System auch exakter übertragen werden. Dies äussert sich vor allem bei bestimmten Aspekten der Stereofonie: Die Zeitverschiebung eines Tones an den beiden Ohren, die mit der Phasenlage (dem zeitlichen Versatz der Wellen durch mehr Weg) und dem Zeitpunkt der ersten Eintreffen eines Impulses zusammenhängt, bestimmt die Art und Weise, ob, und wie genau wir eine Schallquelle lokalisieren können. Eine direkte technische Betrachtung liefert, daß Ereignisse bei 44kHz mit etwa 20us aufgelöst werden können, während 96kHz rund 10us Auflösung bieten. Das menschliche Ohr indes kann (frequenzabhängig) Phasendifferenzen von unter 6us unterscheiden.

Zwar kann theoretisch betrachtet auch in einem System niedrigerer Frequenz, die Wellenphase bedingt durch das Rekonstruktionsfilter am Ausgang der AD-Wandlung, prinzipiell korrekt wiederhergestellt werden. Jedoch scheitert dies in der Praxis an den nicht idealen Filtern. Eine Abtastfrequenz von 96kHz und dafür ausgelegten Filtern kommt dem Ideal näher und repräsentiert besonders die für das Stereoempfinden verantwortlichen hohen Frequenzen dem Prinzip nach deutlich besser. Besonders Schlaginstrumente und andere steilflankige Schallereignisse, sowie die Exaktheit und Deutlichkeit von Zisch- und Explosivlauten werden in 96kHz-Systemen oft exakter wiedergegeben.

Ob und inwieweit diese Klangverbesserung beim Hörer aber auch ankommt, hängt sehr von der Güte des verwendeten Wiedergabesystemes ab. Leider können die theoretisch zweifelsfrei bestehenden Vorteile jedoch von den handelsüblichen Lautsprechern der heimischen Stereoanlagen in keinster Weise übertragen werden. Selbst hochwertige Monitorlautsprecher in Tonstudios bilden das im Signal enthaltene original Impulsverhalten nur sehr unvollständig ab.

So ist es verständlich, daß in Hörversuchen selbst von Experten oft keine oder kaum Unterschiede zwischen 44/48kHz und 96kHz-Systemen erkannt werden können.

Oft sind erkannte Unterschiede sogar die Folge von Artefakten wie z.B. die abweichende Qualität der Wandlersysteme und Mikrofonverstärker, oder die Verwendung von Querkombinationen wie z.B. das Abpielen eines 96kHz-Datenstromes durch ein 44kHz-Filter und umgekehrt.

J.S. Stand August 2001

© Studio 96