Einleitung

Codierverfahren für Audiosignale, zu denen Sprachsignale zählen, sind in der Informationstechnik wichtig für die Übertragung und Aufzeichnung. Codierung bedeutet zunächst, daß das von Natur aus kontinuierliche, `analoge' Schallsignal vorübergehend in einen Strom von diskreten, `digitalen' Daten gewandelt wird. Um teure Übertragungs- und Speicherkapazität einzusparen, befreit man den Strom mit Hilfe von Rechenverfahren von redundanten und irrelevanten Daten. Die vorliegende Arbeit befaßt sich mit den Grundlagen und der Anwendung eines speziellen Rechenverfahrens, das sich an einem Modell der Informationsverarbeitung im menschlichen Gehör orientiert. Eine solche Orientierung hilft, diejenigen Daten auszuwählen, die für den Zuhörer wesentlich sind.

Bild 1: Konturierung des Spektrogramms entspricht geometrisch etwa der Reduktion eines `Pegelgebirges' L(f,t), dargestellt über der Zeit t und der Frequenz f (links), auf seine `Gratlinien' (rechts). Das zugrunde liegende Signal setzt sich aus zwei Sinustönen unterschiedlicher Frequenz zusammen, die gleichzeitig ein- und wieder ausgeschaltet werden.

Ähnlich einem Prisma zerlegt die Basilarmembran im Innenohr das Schallsignal in seine spektralen Bestandteile. Beispielsweise werden Sinustöne verschiedener Frequenz, wenn auch verschwommen, auf verschiedene Orte der Membran abgebildet. Das Ergebnis dieses Vorgangs nähert ein spezielles Spektrogramm an, das man sich nach Bild 1 als `Gebirge' vorstellen kann. Seine Grundfläche wird durch eine Zeit- und eine Frequenzachse aufgespannt, seine Höhe gibt den Energiedichtepegel des Signals über diesen beiden Dimensionen wieder. Konturierung des Spektrogramms bedeutet näherungsweise, daß nur noch die `Gratlinien' des Gebirges verarbeitet werden, wie in Bild 1 angedeutet. Die zeitparallelen Konturlinien geben scharf die hörbaren Sinustöne im Signal wieder, die sich vorher im Spektrogramm wie auch auf der Basilarmembran nur verschwommen abzeichneten.

Die Grundlage für ein solches Verarbeitungsprinzip stammt aus einem Modell der Informationsaufnahme durch das Gehör nach Terhardt . Dort stellt sich der Hörvorgang als eine hierarchische Anordnung von autonomen Entscheidungsprozessen dar, welche als Konturierungsvorgänge realisiert werden. Der Begriff `Konturierung' ist dabei in Anlehnung an den visuellen Begriff als `Reduktion auf das Wesentliche' zu verstehen. Den elementarsten Entscheidungsprozeß verkörpert die Konturierung des Spektrogramms, dessen spezielle Gehöranpassung eine wichtige Rolle spielt. Es wird über die von Terhardt vorgeschlagene Fourier-t-Transformation (FTT) gewonnen, einer Kurzzeitspektraltransformation, die eine frequenzabhängige Analysebandbreite aufweist.

Daß sich bestimmte Konturen eines FTT-Spektrogramms zur gehörorientierten Signalrepräsentation eignen, konnte bereits Heinbach mit seinem Teiltonzeitmuster(TTZM)-Verfahren zeigen. Teiltöne entsprechen darin lokalen Maxima in Schnitten parallel zur Frequenzachse, die in ihrer zeitlichen Entwicklung verfolgt werden. Damit sind solche `Gratlinien' erfaßt, die nicht parallel zur Frequenzachse verlaufen und die später als Frequenzkonturen bezeichnet werden. Um das Signal zurückzugewinnen, werden sie als zeitvariante Sinustöne interpretiert und überlagert. Hierin besteht eine entfernte Verwandtschaft zu sogenannten Sinustonrepräsentationen, die sich aber nicht am Gehör orientieren. Das rekonstruierte Signal klingt im großen und ganzen wie das Original, auch wenn die Qualität nicht als Grundlage für hochqualitative Sprachcodierung ausreicht. Heinbach stellte auch Verfahrensvarianten vor, die das Teiltonzeitmuster mit Hilfe von einfachen Maßnahmen auf wenige, wesentliche Teiltöne reduzieren. Sie erzielen Datenraten bis herab zu etwa 4 kbit/s. Die Verständlichkeit von Sprache wird dabei nicht sonderlich beeinträchtigt, ihre Qualität sinkt allerdings auf ein wenig akzeptables Niveau.

Anfänglich bestand das Ziel der Arbeit darin, aus den Heinbachschen Verfahrensansätzen ein Sprachcodierverfahren mit niedriger Datenrate und akzeptabler Qualität zu entwickeln. Bald zeigte sich jedoch, daß Teiltöne alleine wenig geeignet sind, um alle wahrnehmbaren Sprachanteile datenreduziert zu repräsentieren. Auf der anderen Seite gab es auch keine befriedigende Erklärung, warum selbst ohne Datenreduktion des Teiltonzeitmusters wahrnehmbare Verfälschungen auftreten. Aus dieser Situation heraus schien es fruchtbarer, das TTZM-Verfahren zu analysieren und zu überarbeiten. Daraus wurde die Vorstellung von erweiterten Signalrepräsentationen entwickelt, die sich weiterhin an den Prinzipien des Terhardtschen Modells orientieren. Im Mittelpunkt steht die `Gratlinien'-Repräsentation des FTT-Spektrogramms, mit der prinzipiell hochqualitative Audiocodierung erreichbar ist. Auf dieser erweiterten Grundlage wurde schließlich erneut eine datenreduzierende Sprachcodierung angestrebt. Die Arbeit ist folgendermaßen angelegt:

Kapitel 1: beschreibt als Grundlagenkapitel das Terhardtsche Modell, die FTT und das Heinbachsche TTZM-Verfahren. Dazu wird ein allgemeiner Überblick über Audiocodierungen, über die Bedeutung gehörorientierter Verfahrensweisen und über die Verwandtschaft zu bekannten Sinustonrepräsentationen gegeben.
Kapitel 2: analysiert das Heinbachsche TTZM-Verfahren und seine datenreduzierende Variante als Systeme zur Verarbeitung von Audiosignalen, die bestimmte wahrnehmbare Verfälschungen verursachen. Indem die wesentlichen Verfälschungen und ihre Ursachen herausgearbeitet werden, zeichnen sich grundsätzliche Beschränkungen der Heinbachschen Verfahrensansätze ab. Diese sollen in den weiteren Kapiteln umgangen werden. (Zusammenfassung)
Kapitel 3: erweitert das Konturierungskonzept, damit nun alle `Gratlinien' des FTT-Spektrogramms, oder genauer, des zeitvarianten FTT-Pegelspektrums erfaßt werden. So kommen die sogenannten Zeitkonturen hinzu, welche transiente Spektralanteile repräsentieren und mit impulshaft wahrgenommenen Signalanteilen in Verbindung stehen. Danach wird untersucht, wie die von Heinbach verwendete FTT modifiziert werden kann, so daß sie keine Verfälschungen mehr verursacht und möglichst gut mit dem erweiterten Konzept zusammenspielt. Transformations- und Konturierungsparameter werden subjektiv optimal eingestellt. (Zusammenfassung)
Kapitel 4: führt eine neue gehörorientierte Repräsentationsform ein, die direkt auf Konturen aufbaut. Dazu werden Konturen, deren genauer Verlauf für die Wahrnehmung nicht wichtig ist, insgesamt als Textur bezeichnet. Mit diesem Kontur/Textur-Konzept ist eine getrennte Codierung von tonalen und geräuschhaften Signalanteilen möglich. Probleme der Heinbachschen Datenreduktion können später damit umgangen werden. (Zusammenfassung)
Kapitel 5: entwickelt Verfahren zur Signalrekonstruktion aus Konturen und Kontur/Textur-Repräsentationen. Im erweiterten Konturierungskonzept macht es keinen Sinn mehr, Konturen von vornherein als zeitvariante Sinustöne zu betrachten. Die Verfahren lassen sich dadurch gewinnen, daß Codierung mit Konturen schrittweise aus einer verfälschungsfreien Codierung des zeitvarianten, komplexen FTT-Spektrums abgeleitet wird. (Zusammenfassung)
Kapitel 6: untersucht, wie leicht sich mit Konturen und Kontur/Textur-Repräsentationen datenreduzierende Sprachcodierungen aufbauen lassen. Mit einfachen Maßnahmen sind niedrige Datenraten nur dann zu erreichen, wenn man Anwendungen mit eher niedrigen Qualitätsanforderungen anstrebt - etwa im Bereich der Telefonsprache. Die vorgestellten Verfahren werden mit bekannten etablierten Verfahren, etwa mit CELP, aber auch mit der datenreduzierenden Variante des TTZM-Verfahrens verglichen. (Zusammenfassung und Ausblick)

Zusammenfassung aller wesentlichen Ergebnisse

$Id: ein0.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $