Kapitel 3
Konturierung im zeitvarianten FTT-Pegelspektrum
3.5 Zusammenfassung
Das Konturierungskonzept des Heinbachschen TTZM-Verfahrens wurde in
diesem Kapitel erweitert. Außerdem wurden Eigenschaften der Spektraltransformation
modifiziert, die eng mit einer gehörorientierten Konturierung zusammenspielen.
Probleme einer Signalrekonstruktion aus Konturen standen dabei im Hintergrund,
Codierung blieb unberücksichtigt. Die Ergebnisse führen auf verbesserte
und erweiterte Audiorepräsentationen mit Konturen, die sich auf das
Terhardtsche Modell der auditiven Informationsverarbeitung stützten.
Ihr Gewinnungsprozeß wird als Konturanalyse bezeichnet. Das erweiterte
Konzept kennt nunmehr zwei Konturtypen:
- Frequenzkonturen:
- Für eine Repräsentation nach Art des Teiltonzeitmusters wird
die Bezeichnung Frequenzkonturen verwendet. Im Gegensatz zum Heinbachschen
Teiltonbegriff unterstreicht man damit, daß Quellsinusschwingung,
zeitvariantes Spektralmaximum der FTT, Synthesesinusschwingung und Modellierung
einer wahrgenommenen Spektraltonhöhe unbedingt auseinanderzuhalten
sind. Die neue Bezeichnung drückt auch die Symmetrie zum neuen, zweiten
Konturtyp aus.
- Zeitkonturen:
- Hiermit werden Beiträge von transienten Anteilen im FTT-Pegelspektrum
erfaßt, was mit Frequenzkonturen nicht möglich ist. Während
die von Heinbach übernommene Frequenzkonturierung das zeitvariante
FTT-Pegelspektrum in Schnitten parallel zur Frequenzachse nach Pegelmaxima
absucht, geschieht dies bei Zeitkonturierung in Schnitten parallel zur
Zeitachse. Um einen verzögerungsarmen Entscheidungsprozeß zu
erhalten, wird die Ausgeprägtheit der Maxima nicht mit Hilfe der benachbarten
Minima, sondern über die vorangegangene Steilheit des Pegelanstiegs
bewertet.
Es wurde ausführlich untersucht, wann und wie sich Zeitkonturen
ausprägen. Bei Sprachsignalen stellen sie beispielsweise Glottisimpulse
und Anteile von Plosiven dar. In der bildlichen Konturdarstellung erleichtern
sie die Interpretation des Sprachsignals. Separate Rekonstruktion von Zeitkonturen
zeigt später, daß sie vor allem die impulshaft empfundenen Signalanteile
repräsentieren.
Um die Eigenschaften der Spektraltransformation im Zusammenspiel mit
der Konturierung zu verbessern, ist die FTT-Fensterfunktion der wesentliche
Eingriffspunkt. Sie kann als Impulsantwort eines normierten Tiefpasses
spezifiziert werden. Mit den logarithmierten Beträgen seiner Systemfunktion,
seiner Impulsantwort sowie dem Gruppenlaufzeitverlauf kann man wichtige
Eigenschaften beschreiben. Die ersten beiden Maße werden hier spektrale
beziehungsweise zeitliche Selektion genannt. Folgendes wurde erkannt:
- Zur Konturierung geeignete Fensterfunktionen:
- Konturierung im Einklang mit dem Terhardtschen Modell stellt bestimmte
Anforderungen an die Fensterfunktion. Die spektrale Selektion und möglichst
auch die zeitliche Selektion dürfen keine Nebenmaxima aufweisen. Außerdem
sollte das Laufzeitniveau nicht zu hoch sein. Geeignete reelle Fensterfunktionen
charakterisieren die Familie nP1 der Tiefpässe mit einem n-fachen
Pol. Im Gegensatz zu n=1 bei Heinbach sollte der Fensterfunktionsgrad
n größer, aber auch nicht zu groß gewählt
werden. Dabei ist ein Laufzeitausgleich sinnvoll, der die maximalen Fensteröffnungen
von hohen an die von tiefen Analysefrequenzen angleicht.
- Zusammenspiel Fensterfunktionsgrad/Konturierung/Glättung:
- Ein höheres n ermöglicht zunehmend bessere Trennung
von quasistationären und transienten Beiträgen im FTT-Spektrum.
Ihre getrennte Repräsentation durch Frequenz- und Zeitkonturen funktioniert
somit ebenfalls immer besser. Aus diesen Gründen erweist sich Zeitkonturierung
erst ab n > 2 sinnvoll. Die von Heinbach eingeführte und
bei n=1 unbedingt nötige zeitliche Glättung ist nun entbehrlich,
ja sogar schädlich. Sie eignet sich nicht, die aus der Psychoakustik
bekannte Wahrnehmungsgrenze der Rauhigkeit zu modellieren.
Fensterfunktion und Analysebandbreite wie auch weitere, weniger kritische
Transformations- und Konturierungsparameter wurden anschließend mittels
Signalrekonstruktion optimiert. Dabei wurden später noch zu beschreibende
Rekonstruktionsverfahren verwendet. Mit einer Reihe von Sprachsignalen
sollten die Parameter im Selbstversuch auf möglichst gute Verarbeitungsqualität
justiert werden. Dieses sind die wesentlichen Ergebnisse:
- Abhängigkeit von der Signalrekonstruktion:
- Abhängig von den Fähigkeiten eines Verfahrens zur Signalrekonstruktion
werden Parameter verschieden eingestellt. Bei suboptimaler Rekonstruktion
beeinflussen sie nämlich auch die Charakteristik der rekonstruktionsbedingten
Verfälschungen. Hinter einer gefundenen Einstellung verbirgt sich
ein subjektiver Kompromiß, bei dem Verfälschungen der drei Teilkonzepte
Spektraltransformation, Konturierungskonzept und Rekonstruktion gegeneinander
abgewogen worden sind. Nur eine optimale Rekonstruktion erlaubt es, die
Optimalität einer Parametereinstellung neutral zu beurteilen.
- Vollständigkeit der Konturrepräsentation:
- Eine nahezu perfekte Qualität bei optimaler Rekonstruktion kann
man nur mit Zeit- und Frequenzkonturen erreichen. Die zuvor beim TTZM-Verfahren
erkannten Probleme der Unterrepräsentation transienter Anteile und
der Tonalisierung von Rauschanteilen sind also prinzipiell durch Hinzufügen
von Zeitkonturen zu beheben. Erst beide Konturtypen zusammen ergeben eine
Audiorepräsentation, die die wahrnehmungsrelevante Information vollständig
erfassen kann.
- Optimale Transformationsparameter:
- Gegenüber Heinbach wird der Grad der Fensterfunktionen auf n=4
erhöht. Die bessere spektrale Selektivität ermöglicht größere
Analysebandbreiten, ohne daß eine überhöhte Simultanverdeckung
zu befürchten ist. Unterstützt durch den Laufzeitausgleich verbessert
sich so das Zeitverhalten, insbesondere verringert sich die Glättung
der Schmalbandhüllkurve. Statt einer 3dB-Analysebandbreite von 0,1
Bark bei Heinbach sind für eine optimale, gehörnahe Parametereinstellung
mindestens 0,5 Bark erforderlich. Steht aber nur eine suboptimale Rekonstruktion
zur Verfügung oder soll sogar auf Zeitkonturverarbeitung verzichtet
werden, dann liegt der Kompromiß für die Verfälschungen
der drei Teilkonzepte eher bei 0,3 Bark.
Zusammen mit ebenfalls eingestellten Konturierungsparametern wurden
eine verbesserte und zwei erweiterte Repräsentationsformen für
Audiosignale spezifiziert. Im Rahmen reiner Frequenzkontur-Repräsentation
verbessern die neuen Transformationsparameter die Verarbeitungsqualität
des TTZM-Verfahrens erheblich (M-TTZM). Erweiterte Repräsentation
mit Zeit- und Frequenzkonturen existiert in zwei Varianten. Mit der einen
(ZFKI) ist nahezu perfekte Verarbeitungsqualität möglich, wenn
man optimale Rekonstruktion sicherstellen kann. Die andere Variante (ZFKII)
ist an suboptimale Rekonstruktion angepaßt. Die Schwächen suboptimaler
Rekonstruktion bedingen leider, daß Zeitkonturen die Verarbeitungsqualität
von Sprache nur wenig steigern können.

Bild 3.9: Zeit- und Frequenzkonturen
für die neuen Parametereinstellungen ZFKI, ZFKII (oben) sowieTeiltonzeitmuster
alias Frequenzkonturen für frühere Einstellungen HB-TTZM (unten
links, nach Heinbach 1988) und SM-TTZM (unten rechts, nach Schlang/Mummert
1990) am Beispiel eines Sprachausschnittes (`... bei jeder Wasch...').
Die nicht abgebildete neue Einstellung M-TTZM stimmt mit den Frequenzkonturen
in ZFKII überein und ist optisch von SM-TTZM kaum zu unterschieden.
$Id: kon9.html,v 1.2 1998/03/15 08:37:40 mummert Exp mummert $