Kapitel 2

Grenzen des Heinbachschen TTZM-Verfahrens

2.7 Zusammenfassung

In diesem Kapitel wurde analysiert, warum die erreichbare Verarbeitungsqualität beim Heinbachschen TTZM-Verfahren beschränkt ist und warum sie bei seiner datenreduzierenden Variante erheblich zurückgeht. Dazu wurde das nichtreduzierende TTZM-Verfahren mit verschiedenen einfachgearteten, synthetischen Testsignalen untersucht, die mit wahrnehmbaren Verfälschungen verarbeitet werden. Aus den Beobachtungen ergab sich eine Reihe von charakteristischen Verfälschungseffekten, die auch für Qualitätseinbußen bei Sprachverarbeitung verantwortlich gemacht werden können. Sie lassen sich nach Ursachen in drei Kategorien einteilen. Die erste Kategorie beinhaltet Effekte aufgrund von Eigenschaften der Spektraltransformation:

Glättung der Schmalbandhüllkurve:: Das Teiltonzeitmuster kann schnellen, schmalbandigen Hüllkurvenmodulationen nicht schnell genug folgen. Dies resultiert aus der unzureichenden Gehöranpassung der zeitlichen Auflösung der bisherigen FTT. Daraus kann man schließen, daß die realisierten Vor- oder Nachverdeckungsschwellen des Verfahrens im Vergleich mit dem Gehör zu hoch sind. Der Effekt leistet einen Beitrag zur raumübertragungsähnlichen Verfremdung (`Halligkeit'), denn Räume rufen auch diese Veränderung hervor. Er könnte durch Erhöhung der Analysebandbreite vermieden werden, was sich zunächst aber nicht mit dem folgenden Sachverhalt verträgt.
Überhöhte Simultanverdeckung:: Die Simultanverdeckung im Teiltonzeitmuster liegt höher als beim Gehör, weil die spektralen Selektionseigenschaften der FTT nicht ausreichen. Dadurch können schwächere Töne in der Umgebung eines Maskierertons nicht mitverarbeitet werden, die man im Originalsignal noch hören kann. Eine Verringerung der Analysebandbreite könnte hier helfen, wenn dies nicht im Widerspruch zum vorigen Sachverhalt stünde. Das Dilemma kann man mit der bisherigen Analysefensterfunktion der FTT nicht lösen, bei der die von Heinbach verwendete Bandbreite zumindest einen guten Kompromiß verkörpert.

Die zweite Kategorie betrifft die Vollständigkeit einer Audiorepräsentation durch das Teiltonzeitmuster:

Unterrepräsentation transienter Signalanteile:: Gemeint sind Signalbestandteile, die kurzzeitige spektrale Verbreiterungen im FTT-Pegelspektrum hervorrufen und zur Wahrnehmung von `Klicks' oder `Knacken' beitragen. Sie werden benachteiligt und verfälscht, weil das Teiltonextraktionsprinzip (Frequenzkonturierung) die Verbreiterungen nicht erfassen kann. Eindrucksvoll zeigt sich dies bei Einzelimpulsen und Impulsfolgen. Die Unterrepräsentation wird von der bisher gewählten Analysefensterfunktion begünstigt, mit der sich kein Ausschaltknack im FTT-Spektrum abzeichnet. Bei Sprachverarbeitung gibt es allerdings eine Reihe von günstigen Effekten, die eine stärkere Verfälschung verhindert.
Tonalisierung von Rauschanteilen:: Verarbeitete Rauschanteile klingen je nach Analysebandbreite `zeitvariierend nasal' oder `plätschernd'. Ursache ist wiederum das Teiltonextraktionsprinzip (Frequenzkonturierung), welches im regellosen FTT-Spektrum definitionsgemäß Töne zu erkennen sucht. Dadurch schleicht sich eine Regelhaftigkeit in das verarbeitete Signal ein, die als Tonalisierung bezeichnet werden kann. Der Effekt stellt sich als spezielle Konsequenz des vorigen Sachverhaltes dar und ist später bei korrekter Repräsentation und Rekonstruktion transienter Anteile vermeidbar. Er liefert aber auch eine Argument für die Einrichtung einer eigenständigen Repräsentation von Rauschanteilen.

Strenggenommen ist das Teiltonzeitmuster demnach keine vollständige Audiorepräsentation. Die dritte und letzte Kategorie enthält zwei Störeffekte, deren Ursachen in der Teiltonsynthese, also in der Signalrekonstruktion begründet liegen. Sie entstehen im Übergang zwischen spektraler und zeitlicher Repräsentation von Signalmerkmalen durch das Teiltonzeitmuster. Hier prägt sich beispielsweise ein sinusbasiertes Modulationssignal nicht mehr als zeitvarianter Einzelteilton, aber noch nicht als Satz von stationären Teiltönen aus. Der Übergang manifestiert sich durch spezielle Teiltonformationen mit Kurzverläufen, Aufspaltungen und Verschmelzungen.

Synthesefenster-kontrollierbare Störungen:: Innerhalb der Formationen ändern sich Teiltonpegel schlagartig. Werden die Teiltonparameter direkt in Synthesesinusschwingungen umgesetzt, dann entsteht eine Vielzahl von breitbandigen Knacken. Weichberandete Synthesefenster können die Störwirkung reduzieren.
Phaseninkohärenz-bedingte Störungen:: Bei den Formationen können gleichzeitig mehr als zwei Teiltöne innerhalb einer Frequenzgruppenbreite vorkommen. Aber die Teiltonsynthese stellt für die zugeordneten Synthesesinusschwingungen keine kohärenten Phasenlagen sicher, obwohl sich Indizien hierfür bieten. Die für das Gehör auswertbare Signalhüllkurve wird dadurch verfälscht. Der Effekt tritt sogar bei Spaltungen und Verschmelzungen auf, wenn Wechsel von einer auf zwei Synthesesinusschwingungen und umgekehrt stattfinden.

Weil sich bei Sprach-TTZM die Charakteristika solcher Formationen in der ganzen Zeit/Frequenz-Ebene zeigen, erzeugen beide Störungen eine Art Störteppich. Er paßt sich an die spektral/zeitliche Grobstruktur des Nutzsignals an, bleibt dabei aber wahrnehmbar. Wie noch zu sehen sein wird, entschärft dies die Effekte der zweiten Kategorie etwas.

Das Ende des Kapitels behandelte Zusammenhänge zwischen Maßnahmen zur Datenreduktion und den dabei zusätzlich auftretenden Qualitätsbeeinträchtigungen. Die Ergebnisse sind hier detaillierter zusammengefaßt. Prinzipiell kann man mit einer beschränkten Anzahl von Teiltönen, deren Parameter nur noch im groben Zeitabstand vorgegeben sind, fließende Sprache nicht mehr mit akzeptabler Qualität darstellen. Nichttonale Anteile erfordern dringend eine eigene Repräsentationsform, auch wenn sie zunächst im datenreduzierten Signal enthalten zu sein scheinen. Dies hängt mit der spezielle Natur der auftretenden Störungen zusammen. Sie können vermutlich eine Art Ersatz bieten oder die Eigenschaft der Wahrnehmung herausfordern, verdeckte Anteile zu rekonstruieren, selbst wenn diese gar nicht vorhanden sind. Für tonale Anteile muß man die wesentlichen Teiltöne auswählen können. Dafür wird im Grunde das Modell einer noch zu erforschenden dynamischen Tonhöhenwahrnehmung benötigt. Um weitere Störungen zu vermeiden, muß man die zeitlich grob abgetasteten Teiltonverläufe noch vor Synthese wiederherstellen.

$Id: gre9.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $