5.1.8 Zusammenfassung

Dieser Abschnitt versuchte, ein optimales Rekonstruktionsverfahren zu entwickeln, das neben Frequenzkonturen auch Zeitkonturen verarbeitet und hörbare Rekonstruktionsfehler vermeidet. Sein Ansatz gelingt dadurch, daß die Rücktransformation des komplexen FTT-Spektrums (RFTT) eingeführt wird. Zusammen mit der FTT ergibt sich daraus ein neuartiges Transformationspaar T und R, das für das Gehör transparente Codierung ermöglicht (FTT-Codierung). In die Mitte dieses Rahmens wird eine Reihe von zusätzlichen Verarbeitungsschritten eingefügt, bis man schließlich eine Analysehälfte erhält, die nur noch die Zeit- und Frequenzkonturen liefert. Sie entspricht der bereits bekannten Konturanalyse. Die Synthesehälfte dagegen entspricht prinzipiell dem gesuchten Verfahren. Die Schritte im einzelnen sind folgende:

Einführung FTT-Rücktransformation (RFTT):
Die RFTT stellt das Zeitsignal als Fourier-Rückintegral über einer korrigierten Form des komplexen, zeitvarianten FTT-Spektrums dar. Die Korrektur setzt sich aus drei Komponenten zusammen. Die erste entspricht dem Laufzeitausgleich aus Kapitel 2, der die maximale Fensteröffnung an allen Analysefrequenzen auf den gleichen Zeitpunkt schiebt. Die zweite normiert frequenzabhängig auf die Höhe der maximalen Fensteröffnung, so daß die Schar der wirksamen Analysefenster gleichzeitig dieselbe maximale Höhe erreicht. Die dritte ist ein frequenzabhängiger komplexer Drehfaktor, der den Synthesezeitpunkt auf den Zeitpunkt der gemeinsamen maximalen Fensteröffnung zurückverlegt. Das rücktransformierte Zeitsignal weist gegenüber dem Original lineare Laufzeit- und Frequenzgangverzerrungen auf, die im Rahmen vernünftiger Werte nachweislich unhörbar sind.
Rahmen für FTT-Codierung:
Das Transformationspaar T und R, realisiert durch komplexe Bandfilterbänke, macht den FTT/RFTT-Formalismus für Codierungen nutzbar. Es verarbeitet anstelle des komplexen FTT-Spektrums das betragsgleiche FTT-Bandpaßspektrum, sieht dessen zeitliche und spektrale Abtastung vor und führt ein Synthesefenster mit eigenem Laufzeitausgleich ein. Der Wechsel auf das FTT-Bandpaßspektrum ist wesentlich, weil seine Phase entkoppelte Analyse- und Synthesezeiten und nichtidentische Analyse- und Synthesefrequenzen erlaubt. Spektral/zeitliche Abtastung und spätere Codierungsmaßnahmen zwischen T und R verursachen Quantisierungsfehler. Das Synthesefenster in R hat hier die Aufgabe, sie unter die Hörschwellen des Nutzsignals zu formen. Im Rahmen dieser Arbeit ist die Impulsantwort eines Bessel-Tiefpasses vierten Grades (B4) mit einer 3dB-Bandbreite von 0,7 Bark gut geeignet.

Unabhängig von der Verwendung in dieser Arbeit bilden T und R einen flexiblen Rahmen für Codierungen mit zeitvarianten Kurzzeitspektren. Zwar liegt die Rohdatenrate zwischen T und R um einen gewissen Faktor über dem informationstheoretischen Minimum, wie es beispielsweise bei etablierten, `kritisch' abgetasteten Filterbänken erreicht wird. Auch ist keine perfekte Rekonstruktion möglich. Dafür kann man Analyse- und Synthesefenster im Typ und in der Frequenzabhängigkeit der Bandbreite in weiten Grenzen festlegen. In manchen Fällen dürfte die resultierende spektral/zeitliche Formbarkeit des Quantisierungsfehlers wichtiger als eine potentiell perfekte Rekonstruktion sein. Letztere nützt angesichts fehlerbehafteter Codierungsmaßnahmen wenig, wenn ungünstige Synthesefenster bereits kleine Fehler spektral/zeitlich auffällig verschmieren. T und R können anschaulich mit dem Formalismus der Wavelet-Transformation dargestellt werden (Anhang).

Ansatz FTT-Konturcodierung:
Hierzu braucht man die Abtastwerte des komplexen FTT-Bandpaßspektrums zwischen T und R nur an den Rasterorten weiterzureichen, an denen die Zeit- und Frequenzkonturen des FTT-Betragsspektrums verlaufen. Diese Abtastwerte werden aus dem ursprünglichen Raster gewissermaßen `ausgesiebt', die übrigen Werte werden zu null angenommen. Um den Verlust an Energiedichte zu kompensieren, sind für die gesiebten Abtastwerte frequenzabhängige Bewertungsfaktoren einzuführen. Sie unterscheiden sich für beide Konturtypen und werden so abgeglichen, daß Sinustöne beziehungsweise Impulse ohne Frequenzgangverzerrungen reproduziert werden. Um energetische Doppelrepräsentationen - etwa bei überkreuzenden Konturlinien - zu verhindern, müssen Abtastwerte gegenseitig maskiert werden, die von verschiedenen Konturtypen gesiebt wurden. Die insgesamt erreichbare Qualität einer solchen Codierung ist bei Sprachsignalen so gut, daß man den Unterschied zum Original nur im direkten Paarvergleich unter optimalen Abhörbedingungen wahrnehmen kann. Allerdings finden sich synthetische FM-Signale, bei denen der Unterschied deutlicher werden kann. Dies wird auf die behelfsmäßige Definition der gegenseitigen Maskierung zurückgeführt.
Abspaltung Rekonstruktionsverfahren RKOP:
Aus dem vorigen Schritt kann man eine noch unvollständige Version des angestrebten Rekonstruktionsverfahrens herauslösen, für welche die Phasen entlang der Konturverläufe mitzuübertragen sind (RKOP - Rekonstruktion aus Konturen mit Originalphase). Die zuvor benötigten gesiebten Abtastwerte werden nun direkt aus Konturen und Konturphasen ermittelt. Dabei können beliebig quantisierte Konturen auf das Syntheseraster umgerechnet werden, wenn diesen ein anderes Zeit/Frequenz-Raster zugrunde liegt. Ein ausreichend feines Syntheseraster gewährleistet einen vernachlässigbaren Umrechnungsfehler. Die erreichbare Rekonstruktionsqualität entspricht der des vorigen Schrittes.
Wandlung RKOP in RKHP durch Phasenrekonstruktion:
Der letzte Schritt besteht darin, die Notwendigkeit mitübertragender Phasenverläufe zu eliminieren, um sie aus den Konturen selbst zu rekonstruieren. Es kann ein Nachweis skizziert werden, daß dies ohne wahrnehmbaren Qualitätsverlust möglich ist. Eine solche optimale Phasenrekonstruktion wird in dieser Arbeit aber nur ansatzweise vorgestellt. Immerhin läßt sich das Verhalten der Konturphasen durch eine differentielle Phasenregel beschreiben. Sie besagt, daß die Phasen nur langsam und stetig von einer einfachen Gesetzmäßigkeit abweichen können. Indem man die Abweichung außer acht läßt, gelangt man zu einer Phasenheuristik. Für Frequenzkonturen stimmt sie mit derjenigen der Teiltonsynthese überein, auf Zeitkonturen ist sie in vergleichbarer Weise anwendbar. Damit wurde eine behelfsmäßige Version (RKHP - Rekonstruktion aus Konturen mit heuristischer Phase) des angestrebten autonomen Verfahrens realisiert, dessen Rekonstruktionsqualität gegenüber RKOP leider merklich absinkt.

Optimale Rekonstruktion aus Konturen scheint demnach zwar prinzipiell erreichbar, scheitert einstweilen aber an der Unzulänglichkeit der Phasenrekonstruktion. Die resultierenden Phaseninkohärenz-bedingten Störungen im Verfahren RKHP mindern bei Sprachsignalen auch den wahrnehmbaren Nutzen des Zeitkonturbeitrages. Mit der sehr guten Rekonstruktionsqualität von RKOP läßt sich immerhin der Erfolg einer optimalen Phasenrekonstruktion simulieren. Ebenso läßt sich das über R eingebrachte Synthesefenster als optimal bestätigen.

Vergleicht man RKHP ohne Zeitkonturverarbeitung mit den Varianten der Teiltonsynthese, so unterscheiden sie sich prinzipiell nur im Synthesefenster. Im Gegensatz zum optimalen Fenster in RKHP bewirken die einfachen Fenster eine hörbare Fehlerverschmierung in spektraler Richtung. Bei Sprachsignalen haben diese Synthesefenster-kontrollierbaren Störungen - wie auch ein `Rauschstoß'-Effekt durch Phaseninkohärenz - eine nützliche Wirkung: Der Nachteil fehlender Zeitkonturen kann in gewissem Maße verschleiert werden. Der Vorteil der Zeitkonturverarbeitung bei RKHP andererseits kommt wegen der Phaseninkohärenz-bedingten Störungen nicht voll zur Geltung. Bei Sprachsignalen fällt deshalb eine Rekonstruktion mit RKHP aus beiden Konturtypen gegenüber einer Teiltonsynthese mit Dreieckfenster (TTSD) aus Frequenzkonturen subjektiv nicht viel besser aus.

Konzeptionell trennt man sich für eine optimale Rekonstruktion davon, daß Konturen direkt Parameter von Synthesesinusschwingungen vorgeben. Diese Grundlage der Heinbachschen Teiltonsynthese kann nur einen praktischen Kompromiß bedeuten. Ein optimales Synthesefenster bewirkt nämlich, daß sich sprunghafte Pegelübergänge einer Frequenzkonturlinie optimal geglättet im Amplitudenverlauf der rekonstruierten Sinusschwingung niederschlagen. Der Frequenzverlauf wird ebenfalls nicht direkt übernommen, da er als Folge einer optimalen Phasenrekonstruktion in der rekonstruierten Sinusschwingung ein gewisses `Eigenleben' führen kann. Optimale Rekonstruktion läßt sich als Konsequenz aller Entwicklungsschritte nunmehr so beschreiben:

Konzept optimaler Rekonstruktion:
Die Parameter eines Konturpunktes bestimmen direkt Amplitude, Frequenz und Zeitlage von einzelnen Sinustonimpulsen (Wavelets), die es für die Menge aller Konturpunkte zu überlagern gilt. Die Hüllkurven der Wavelets entsprechen dem optimalen, gehörangepaßten Synthesefenster. Ihre ebenfalls benötigte Phase läßt sich, soweit für die Wahrnehmung relevant, aus dem Gesamtzusammenhang der Menge entwickeln. Alternativ kann sie aus der Phase des konturierten Spektrums übernommen werden. Doppelrepräsentationen von spektral/zeitlichen Bereichen durch Konturpunkte unterschiedlicher Konturtypen sind vor der Überlagerung auszuschließen.


$Id: entwp.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $