5.1.8 Zusammenfassung
Dieser Abschnitt versuchte, ein optimales Rekonstruktionsverfahren zu
entwickeln, das neben Frequenzkonturen auch Zeitkonturen verarbeitet und
hörbare Rekonstruktionsfehler vermeidet. Sein Ansatz gelingt dadurch,
daß die Rücktransformation des komplexen FTT-Spektrums (RFTT)
eingeführt wird. Zusammen mit der FTT ergibt sich daraus ein neuartiges
Transformationspaar T und R, das für das Gehör transparente Codierung
ermöglicht (FTT-Codierung). In die Mitte dieses Rahmens wird eine
Reihe von zusätzlichen Verarbeitungsschritten eingefügt, bis
man schließlich eine Analysehälfte erhält, die nur noch
die Zeit- und Frequenzkonturen liefert. Sie entspricht der bereits bekannten
Konturanalyse. Die Synthesehälfte dagegen entspricht prinzipiell dem
gesuchten Verfahren. Die Schritte im einzelnen sind folgende:
- Einführung FTT-Rücktransformation (RFTT):
- Die RFTT stellt das Zeitsignal als Fourier-Rückintegral über
einer korrigierten Form des komplexen, zeitvarianten FTT-Spektrums dar.
Die Korrektur setzt sich aus drei Komponenten zusammen. Die erste entspricht
dem Laufzeitausgleich aus Kapitel 2, der die maximale Fensteröffnung
an allen Analysefrequenzen auf den gleichen Zeitpunkt schiebt. Die zweite
normiert frequenzabhängig auf die Höhe der maximalen Fensteröffnung,
so daß die Schar der wirksamen Analysefenster gleichzeitig dieselbe
maximale Höhe erreicht. Die dritte ist ein frequenzabhängiger
komplexer Drehfaktor, der den Synthesezeitpunkt auf den Zeitpunkt der gemeinsamen
maximalen Fensteröffnung zurückverlegt. Das rücktransformierte
Zeitsignal weist gegenüber dem Original lineare Laufzeit- und Frequenzgangverzerrungen
auf, die im Rahmen vernünftiger Werte nachweislich unhörbar sind.
- Rahmen für FTT-Codierung:
- Das Transformationspaar T und R, realisiert durch komplexe Bandfilterbänke,
macht den FTT/RFTT-Formalismus für Codierungen nutzbar. Es verarbeitet
anstelle des komplexen FTT-Spektrums das betragsgleiche FTT-Bandpaßspektrum,
sieht dessen zeitliche und spektrale Abtastung vor und führt ein Synthesefenster
mit eigenem Laufzeitausgleich ein. Der Wechsel auf das FTT-Bandpaßspektrum
ist wesentlich, weil seine Phase entkoppelte Analyse- und Synthesezeiten
und nichtidentische Analyse- und Synthesefrequenzen erlaubt. Spektral/zeitliche
Abtastung und spätere Codierungsmaßnahmen zwischen T und R verursachen
Quantisierungsfehler. Das Synthesefenster in R hat hier die Aufgabe, sie
unter die Hörschwellen des Nutzsignals zu formen. Im Rahmen dieser
Arbeit ist die Impulsantwort eines Bessel-Tiefpasses vierten Grades (B4)
mit einer 3dB-Bandbreite von 0,7 Bark gut geeignet.
Unabhängig von der Verwendung in dieser Arbeit bilden T und R einen
flexiblen Rahmen für Codierungen mit zeitvarianten Kurzzeitspektren.
Zwar liegt die Rohdatenrate zwischen T und R um einen gewissen Faktor über
dem informationstheoretischen Minimum, wie es beispielsweise bei etablierten,
`kritisch' abgetasteten Filterbänken erreicht wird. Auch ist keine
perfekte Rekonstruktion möglich. Dafür kann man Analyse- und
Synthesefenster im Typ und in der Frequenzabhängigkeit der Bandbreite
in weiten Grenzen festlegen. In manchen Fällen dürfte die resultierende
spektral/zeitliche Formbarkeit des Quantisierungsfehlers wichtiger als
eine potentiell perfekte Rekonstruktion sein. Letztere nützt angesichts
fehlerbehafteter Codierungsmaßnahmen wenig, wenn ungünstige
Synthesefenster bereits kleine Fehler spektral/zeitlich auffällig
verschmieren. T und R können anschaulich mit dem Formalismus der Wavelet-Transformation
dargestellt werden (Anhang).
- Ansatz FTT-Konturcodierung:
- Hierzu braucht man die Abtastwerte des komplexen FTT-Bandpaßspektrums
zwischen T und R nur an den Rasterorten weiterzureichen, an denen die Zeit-
und Frequenzkonturen des FTT-Betragsspektrums verlaufen. Diese Abtastwerte
werden aus dem ursprünglichen Raster gewissermaßen `ausgesiebt',
die übrigen Werte werden zu null angenommen. Um den Verlust an Energiedichte
zu kompensieren, sind für die gesiebten Abtastwerte frequenzabhängige
Bewertungsfaktoren einzuführen. Sie unterscheiden sich für beide
Konturtypen und werden so abgeglichen, daß Sinustöne beziehungsweise
Impulse ohne Frequenzgangverzerrungen reproduziert werden. Um energetische
Doppelrepräsentationen - etwa bei überkreuzenden Konturlinien
- zu verhindern, müssen Abtastwerte gegenseitig maskiert werden, die
von verschiedenen Konturtypen gesiebt wurden. Die insgesamt erreichbare
Qualität einer solchen Codierung ist bei Sprachsignalen so gut, daß
man den Unterschied zum Original nur im direkten Paarvergleich unter optimalen
Abhörbedingungen wahrnehmen kann. Allerdings finden sich synthetische
FM-Signale, bei denen der Unterschied deutlicher werden kann. Dies wird
auf die behelfsmäßige Definition der gegenseitigen Maskierung
zurückgeführt.
- Abspaltung Rekonstruktionsverfahren RKOP:
- Aus dem vorigen Schritt kann man eine noch unvollständige Version
des angestrebten Rekonstruktionsverfahrens herauslösen, für welche
die Phasen entlang der Konturverläufe mitzuübertragen sind (RKOP
- Rekonstruktion aus Konturen mit Originalphase). Die zuvor benötigten
gesiebten Abtastwerte werden nun direkt aus Konturen und Konturphasen ermittelt.
Dabei können beliebig quantisierte Konturen auf das Syntheseraster
umgerechnet werden, wenn diesen ein anderes Zeit/Frequenz-Raster zugrunde
liegt. Ein ausreichend feines Syntheseraster gewährleistet einen vernachlässigbaren
Umrechnungsfehler. Die erreichbare Rekonstruktionsqualität entspricht
der des vorigen Schrittes.
- Wandlung RKOP in RKHP durch Phasenrekonstruktion:
- Der letzte Schritt besteht darin, die Notwendigkeit mitübertragender
Phasenverläufe zu eliminieren, um sie aus den Konturen selbst zu rekonstruieren.
Es kann ein Nachweis skizziert werden, daß dies ohne wahrnehmbaren
Qualitätsverlust möglich ist. Eine solche optimale Phasenrekonstruktion
wird in dieser Arbeit aber nur ansatzweise vorgestellt. Immerhin läßt
sich das Verhalten der Konturphasen durch eine differentielle Phasenregel
beschreiben. Sie besagt, daß die Phasen nur langsam und stetig von
einer einfachen Gesetzmäßigkeit abweichen können. Indem
man die Abweichung außer acht läßt, gelangt man zu einer
Phasenheuristik. Für Frequenzkonturen stimmt sie mit derjenigen der
Teiltonsynthese überein, auf Zeitkonturen ist sie in vergleichbarer
Weise anwendbar. Damit wurde eine behelfsmäßige Version (RKHP
- Rekonstruktion aus Konturen mit heuristischer Phase) des angestrebten
autonomen Verfahrens realisiert, dessen Rekonstruktionsqualität gegenüber
RKOP leider merklich absinkt.
Optimale Rekonstruktion aus Konturen scheint demnach zwar prinzipiell
erreichbar, scheitert einstweilen aber an der Unzulänglichkeit der
Phasenrekonstruktion. Die resultierenden Phaseninkohärenz-bedingten
Störungen im Verfahren RKHP mindern bei Sprachsignalen auch den wahrnehmbaren
Nutzen des Zeitkonturbeitrages. Mit der sehr guten Rekonstruktionsqualität
von RKOP läßt sich immerhin der Erfolg einer optimalen Phasenrekonstruktion
simulieren. Ebenso läßt sich das über R eingebrachte Synthesefenster
als optimal bestätigen.
Vergleicht man RKHP ohne Zeitkonturverarbeitung mit den Varianten der
Teiltonsynthese, so unterscheiden sie sich prinzipiell nur im Synthesefenster.
Im Gegensatz zum optimalen Fenster in RKHP bewirken die einfachen Fenster
eine hörbare Fehlerverschmierung in spektraler Richtung. Bei Sprachsignalen
haben diese Synthesefenster-kontrollierbaren Störungen - wie auch
ein `Rauschstoß'-Effekt durch Phaseninkohärenz - eine nützliche
Wirkung: Der Nachteil fehlender Zeitkonturen kann in gewissem Maße
verschleiert werden. Der Vorteil der Zeitkonturverarbeitung bei RKHP andererseits
kommt wegen der Phaseninkohärenz-bedingten Störungen nicht voll
zur Geltung. Bei Sprachsignalen fällt deshalb eine Rekonstruktion
mit RKHP aus beiden Konturtypen gegenüber einer Teiltonsynthese mit
Dreieckfenster (TTSD) aus Frequenzkonturen subjektiv nicht viel besser
aus.
Konzeptionell trennt man sich für eine optimale Rekonstruktion
davon, daß Konturen direkt Parameter von Synthesesinusschwingungen
vorgeben. Diese Grundlage der Heinbachschen Teiltonsynthese kann nur einen
praktischen Kompromiß bedeuten. Ein optimales Synthesefenster bewirkt
nämlich, daß sich sprunghafte Pegelübergänge einer
Frequenzkonturlinie optimal geglättet im Amplitudenverlauf der rekonstruierten
Sinusschwingung niederschlagen. Der Frequenzverlauf wird ebenfalls nicht
direkt übernommen, da er als Folge einer optimalen Phasenrekonstruktion
in der rekonstruierten Sinusschwingung ein gewisses `Eigenleben' führen
kann. Optimale Rekonstruktion läßt sich als Konsequenz aller
Entwicklungsschritte nunmehr so beschreiben:
- Konzept optimaler Rekonstruktion:
- Die Parameter eines Konturpunktes bestimmen direkt Amplitude, Frequenz
und Zeitlage von einzelnen Sinustonimpulsen (Wavelets), die es für
die Menge aller Konturpunkte zu überlagern gilt. Die Hüllkurven
der Wavelets entsprechen dem optimalen, gehörangepaßten Synthesefenster.
Ihre ebenfalls benötigte Phase läßt sich, soweit für
die Wahrnehmung relevant, aus dem Gesamtzusammenhang der Menge entwickeln.
Alternativ kann sie aus der Phase des konturierten Spektrums übernommen
werden. Doppelrepräsentationen von spektral/zeitlichen Bereichen durch
Konturpunkte unterschiedlicher Konturtypen sind vor der Überlagerung
auszuschließen.
$Id: entwp.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $