Die vorliegende Arbeit behandelt neuartige, wahrnehmungsorientierte Audiocodierungen. Sie verarbeiten im `Gebirge' eines gehörangepaßten Spektrogramms Konturen, die grob etwa seinen `Gratlinien' entsprechen. Außerdem können wenig prägnante Konturen, als Textur bezeichnet, wahlweise durch eine grobe Hüllfläche über Zeit und Frequenz repräsentiert werden. Dadurch ist es möglich, rauschhaft empfundene Anteile getrennt von tonalen oder impulshaften zu verarbeiten. Die Grundlagen einer Codierung mit solchen Kontur- und Kontur/Textur-Repräsentationen und die erreichbare Verarbeitungsqualität werden ausführlich untersucht. Im besonderen wird die Anwendung zur Datenreduktion von Sprache ausgelotet.
Das gehörangepaßte Spektrogramm ergibt sich als zeitvariantes Pegelspektrum aus einer speziellen Kurzzeitspektralanalyse. Die Fourier-t-Transformation (FTT) nach Terhardt (1985) weist eine Analysebandbreite proportional zur Frequenzgruppenbreite des Gehörs auf. Konturen erhält man zum einem Teil dadurch, daß ausgeprägte lokale Maxima in frequenzparallelen Schnitten des FTT-Spektrogramms verfolgt werden. Diese sogenannten Frequenzkonturen erfassen quasistationäre Anteile des FTT-Spektrogramms, die unter anderem den tonal empfundenen Signalanteilen entsprechen. Den übrigen Teil der Konturen erhält man auf ähnliche Weise, nun aber werden zeitparallelen Schnitte zugrunde gelegt. Die sogenannten Zeitkonturen erfassen transiente Anteile des FTT-Spektrogramms, die unter anderem impulshaft empfundenen Signalanteilen entsprechen.
Kontur- und Kontur/Textur-Repräsentationen sollen nicht das Signal an sich, sondern nur seine gehörrelevanten Eigenschaften erfassen. Dabei stützen sie sich auf ein schematisches Modell der auditiven Informationsaufnahme nach Terhardt (1992), das eine Analogie zur visuellen Wahrnehmung herstellt. Auf dieser Grundlage wurden Frequenzkonturen in einem FTT-Spektrogramm schon von Heinbach (1988) unter dem Begriff `Teiltonzeitmuster' (TTZM) eingeführt. Er verband damit die Vorstellung, daß einzelne Frequenzkonturlinien gehörrelevanten, zeitvarianten Sinusschwingungen entsprechen, die zur gehörgerechten Rekonstruktion des Signals zu überlagern sind. Das resultierende TTZM-Verfahren verarbeitet Audiosignale mit bestimmten Verfälschungen, bewahrt aber wesentliche gehörrelevante Eigenschaften. Heinbach stellte außerdem eine Variante zur Datenreduktion von Sprache vor, deren Übertragungsqualität allerdings wenig akzeptabel ist. In der vorliegenden Arbeit werden deshalb, nach einem ausführlichen Grundlagenkapitel, im zweiten Kapitel zunächst die Grenzen des Heinbachschen Verfahrens untersucht. Verfälschungsursachen liegen demnach in der bisher verwendeten FTT, in der Repräsentation nur mit Frequenzkonturen und in der Signalrekonstruktion begründet.
Das dritte Kapitel führt Zeitkonturen ein und optimiert die FTT für das Zusammenspiel mit den Konturierungsvorgängen. Um alle gehörrelevanten Anteile im FTT-Spektrogramm zu erfassen, reichen nämlich Frequenzkonturen grundsätzlich nicht aus. Beispielsweise bleibt ein Einzelimpuls praktisch unrepräsentiert. Transiente Anteile, die durch kurzzeitige spektrale Verbreiterungen gekennzeichnet sind, werden erst durch Zeitkonturen berücksichtigt. Sie sind selbst bei Rauschen von Bedeutung. Nur mit beiden Konturtypen zusammen kann man eine nahezu verfälschungsfreie Audiosignalverarbeitung erzielen, optimale Parametereinstellung und optimale Signalrekonstruktion vorausgesetzt. Bei Sprache weisen Zeitkonturen besonders auf Glottisimpulse und Plosive hin. Wesentliche sprachliche Information wird allerdings von Frequenzkonturen in viel höherem Maße transportiert. Außerdem erleichtern, wie im Falle des TTZM-Verfahrens, suboptimale Parametereinstellung und suboptimale Signalrekonstruktion einen Verzicht auf Zeitkonturen.
Die Wahl des kausalen Analysefensters in der FTT spielt für die Konturierungsvorgänge eine wichtige Rolle. Geeignete reelle Fensterfunktionen entsprechen den Impulsantworten von Tiefpässen mit einem n-fachen reellen Pol. Die von Heinbach verwendete Funktion weist mit n=1 den niedrigsten Grad auf. Erst mit n=4 kann man aber, bei geeigneter Wahl der Analysebandbreite, die zeitliche und spektrale Selektivität richtig an das Gehör anpassen. Gleichzeitig heben sich transiente und quasistationäre Anteile des Spektrogramms immer besser von einander ab, so daß Zeitkonturen auch erst dann sinnvoll sind. Zwar wird nun ein Laufzeitausgleich zwischen verschiedenen Spektrogrammfrequenzen erforderlich, dafür entfällt die von Heinbach benötigte zeitliche Glättung des Spektrogramms. Nahezu verfälschungsfreie Sprachverarbeitung mit Konturen erfordert eine 3dB-Analysebandbreite von mindestens 0,5 Bark. Suboptimale Signalrekonstruktion oder Verzicht auf Zeitkonturen lassen allerdings eher 0,3 Bark ratsam erscheinen, weil die verschiedenartigen Verfälschungen dann am besten ausgewogen sind. Mit einer derart veränderten FTT kann auch die Verarbeitungsqualität des TTZM-Verfahrens deutlich verbessert werden.
Im vierten Kapitel werden Kontur/Textur-Repräsentationen eingeführt. Sie stützen sich auf die Vorstellung, daß nur ein Teil der Konturen als Einzelobjekte der Wahrnehmung interpretierbar sind. Prägnante Frequenzkonturen geben idealerweise einzeln wahrnehmbare Töne wieder. Diese sogenannten Spektraltonhöhen sind psychoakustisch bislang nur unter stationären Bedingungen erforscht. Entsprechend könnten prägnante Zeitkonturen einzeln wahrnehmbare `Klicks' repräsentieren. Behelfsmäßig dient die Konturlinienlänge als Prägnanzmaß. Geht man von einer Analysebandbreite von 0,3 Bark aus, dann vertreten Frequenzkonturen mit einer Mindestlänge von etwa 25 ms bei Sprache sehr gut die tonal wahrgenommenen Anteile. Zeitkonturen mit einer Mindestlänge von 1 Bark verkörpern die impulshaften Anteile. Textur bezeichnet als Sammelbegriff die übrigen Konturen, die nur noch in ihrem gemeinschaftlichen Verhalten wahrnehmungsrelevant sind. Sie sind durch eine Hüllfläche repräsentierbar, die ein zeitlich und spektral geformtes Rauschen beschreibt. Zur Signalrekonstruktion benötigt man deshalb eine zeitvariante Rauschfilterung, die in die Signalrekonstruktion aus Konturen integrierbar ist. Kontur/Textur-Repräsentation ist auch in einer unaufwendigeren Form möglich. Diese unterscheidet nur zwischen tonalen und geräuschhaften Anteilen, indem vormals prägnante Zeitkonturen ebenfalls der Textur zugewiesen werden.
Das fünfte Kapitel behandelt die Rekonstruktion des Signals aus seinen Konturen. Die bislang unbekannte FTT-Rücktransformation, die auch verfälschungsfreie Audiocodierungen mit komplexen FTT-Spektren ermöglicht, liefert die Grundlage für ein optimales Verfahren. Darin bestimmt jeder Konturpunkt einen Sinustonimpuls (Wavelet) in Zeitlage, Frequenz und Amplitude, der mit den übrigen überlagert wird. Seine Hüllkurve, das sogenannte Synthesefenster, ist frequenzabhängig und entspricht in etwa einem FTT-Analysefenster mit 0,7 Bark Bandbreite. Dadurch liefert ein einzelner Konturpunkt einen Energiebeitrag, der für das Gehör bei Wiedergabe zeitlich und spektral etwa gleichermaßen konzentriert ist. Auf diese Weise werden Störungen vermieden, welche bei der Teiltonsynthese des Heinbachschen TTZM-Verfahren vorkommen. Diese verwendet ein Rechteckfenster, das den Energiebeitrag hörbar in spektraler Richtung verschmieren kann. Allerdings kann die Charakteristik dieser Störung bei Sprache dazu nützen, fehlende Zeitkonturverarbeitung zu verschleiern. Für eine verbesserte Teiltonsynthese ist deshalb ein gehörangepaßtes Synthesefenster nicht sinnvoll. Vielmehr erzielt man mit einem Dreieckfenster mit 2,5 ms Basislänge einen ausgewogenen Kompromiß zwischen nützlichen und unerwünschten Störungen.
Das zentrale Problem einer optimalen Rekonstruktion aus Konturen besteht darin, die Sinusphase innerhalb des Synthesefensters festzulegen. Dazu wird ein Nachweis skizziert, daß sich die Phasen aus dem Zusammenhang der Konturen so weit rekonstruieren lassen, wie es für das Gehör nötig ist. In diesem Sinne optimale Phasenrekonstruktion erweist sich jedoch als kompliziert, weshalb zwei Alternativen vorgestellt werden. Die eine verzichtet völlig auf Phasenrekonstruktion und vertraut darauf, daß die Phaseninformation der FTT an den Konturpunkten mitübertragen worden sind. Diese Rekonstruktion mit Originalphasen simuliert das Ergebnis einer optimalen Rekonstruktion. Die andere Alternative verwendet eine Phasenheuristik. Sie entspricht für Frequenzkonturen der Phasenfortschreibung in der Teiltonsynthese und realisiert ein ähnlich einfaches Prinzip auch für die Zeitkonturen. Eine Rekonstruktion mit Phasenheuristik kann, wie auch die Teiltonsynthese, Störungen durch Phaseninkohärenz nicht vermeiden, so daß die Rekonstruktionsqualität leider merklich absinkt. Insbesondere kommt der Nutzen der Zeitkonturen dadurch nicht voll zum Tragen. Bei Kontur/Textur-Repräsentationen schadet die Phaseninkohärenz allerdings kaum, weil sich bislang unvermeidliche Fehler bei der Prägnanzentscheidung ganz ähnlich auswirken.
Ohne spezielle Codierungsmaßnahmen wird Sprache mit Kontur- oder Kontur/Textur-Repräsentationen in recht guter Qualität verarbeitet. Die Qualität übertrifft auch ein deutlich verbessertes TTZM-Verfahren, liegt aber doch noch unter der des Originalsignals. Wenn man bei Konturrepräsentationen zusätzlich die Originalphasen mitüberträgt oder eine optimale Phasenrekonstruktion bereitstellen kann, dann lassen sich die restlichen Verfälschungen fast völlig eliminieren. Zukünftige Qualitätsverbesserungen bei Kontur/Textur-Repräsentationen erfordern darüber hinaus psychoakustisch fundierte Prägnanzkriterien.
Im sechsten und letzten Kapitel werden Möglichkeiten der Codierung mit den neuen Repräsentationen untersucht. Möchte man das realisierbare Qualitätsniveau beibehalten und dabei geringstmögliche Datenraten erzielen, dann führen einfache Codierungsmaßnahmen leider nicht weit. Werden beispielsweise die Stützstellen der Repräsentationen in Zeit, Tonheit, Pegel und gegebenenfalls Phase gleichförmig quantisiert, so liegen die erzielbaren Datenraten grob etwa bei der des Original-PCM-Signals. Kontur/Textur-Repräsentationen ermöglichen hier noch die niedrigsten Datenraten. Niedrigere Raten sind auf einfachem Wege nur dann zu erreichen, wenn zusätzliche Qualitätseinbußen hingenommen werden.
Aufbauend auf einer Kontur/Textur-Repräsentation werden schließlich zwei Verfahren von 30 kbit/s und 4,4 kbit/s vorgestellt. Das erste übertrifft das ursprüngliche Heinbachsche TTZM-Verfahren in der Sprachqualität und benötigt höchstens ein Drittel der Rate. Das zweite übertrifft die Heinbachsche Verfahrensvariante mit identischer Datenrate, indem weniger störende Artefakte auftreten. Diese rühren insbesondere daher, daß sich nichttonale Signalanteile allein mit datenreduzierten Frequenzkonturen schlecht wiedergeben lassen. Der US-Federal-Standard 1016 CELP für Sprachcodierung mit 4,8 kbit/s scheint qualitätsmäßig in der Mitte zwischen den beiden neuen Verfahren zu liegen. Die Robustheit ist höher als beim US-Federal-Standard 1015 LPC-10e mit 2,4 kbit/s. Beide Codierungen enthalten sicherlich noch Redundanz, so daß zukünftige Optimierungen bessere Raten erwarten lassen.
$Id: zusf.html,v 1.1 1998/01/30 01:36:56 mummert Exp mummert $