Kapitel 2
Grenzen des Heinbachschen TTZM-Verfahrens
2.7 Zusammenfassung
In diesem Kapitel wurde analysiert, warum die erreichbare Verarbeitungsqualität
beim Heinbachschen TTZM-Verfahren beschränkt ist und warum sie bei
seiner datenreduzierenden Variante erheblich zurückgeht. Dazu wurde
das nichtreduzierende TTZM-Verfahren mit verschiedenen einfachgearteten,
synthetischen Testsignalen untersucht, die mit wahrnehmbaren Verfälschungen
verarbeitet werden. Aus den Beobachtungen ergab sich eine Reihe von charakteristischen
Verfälschungseffekten, die auch für Qualitätseinbußen
bei Sprachverarbeitung verantwortlich gemacht werden können. Sie lassen
sich nach Ursachen in drei Kategorien einteilen. Die erste Kategorie beinhaltet
Effekte aufgrund von Eigenschaften der Spektraltransformation:
- Glättung der Schmalbandhüllkurve:
- Das Teiltonzeitmuster kann schnellen, schmalbandigen Hüllkurvenmodulationen
nicht schnell genug folgen. Dies resultiert aus der unzureichenden Gehöranpassung
der zeitlichen Auflösung der bisherigen FTT. Daraus kann man schließen,
daß die realisierten Vor- oder Nachverdeckungsschwellen des Verfahrens
im Vergleich mit dem Gehör zu hoch sind. Der Effekt leistet einen
Beitrag zur raumübertragungsähnlichen Verfremdung (`Halligkeit'),
denn Räume rufen auch diese Veränderung hervor. Er könnte
durch Erhöhung der Analysebandbreite vermieden werden, was sich zunächst
aber nicht mit dem folgenden Sachverhalt verträgt.
- Überhöhte Simultanverdeckung:
- Die Simultanverdeckung im Teiltonzeitmuster liegt höher als beim
Gehör, weil die spektralen Selektionseigenschaften der FTT nicht ausreichen.
Dadurch können schwächere Töne in der Umgebung eines Maskierertons
nicht mitverarbeitet werden, die man im Originalsignal noch hören
kann. Eine Verringerung der Analysebandbreite könnte hier helfen,
wenn dies nicht im Widerspruch zum vorigen Sachverhalt stünde. Das
Dilemma kann man mit der bisherigen Analysefensterfunktion der FTT nicht
lösen, bei der die von Heinbach verwendete Bandbreite zumindest einen
guten Kompromiß verkörpert.
Die zweite Kategorie betrifft die Vollständigkeit einer Audiorepräsentation
durch das Teiltonzeitmuster:
- Unterrepräsentation transienter Signalanteile:
- Gemeint sind Signalbestandteile, die kurzzeitige spektrale Verbreiterungen
im FTT-Pegelspektrum hervorrufen und zur Wahrnehmung von `Klicks' oder
`Knacken' beitragen. Sie werden benachteiligt und verfälscht, weil
das Teiltonextraktionsprinzip (Frequenzkonturierung) die Verbreiterungen
nicht erfassen kann. Eindrucksvoll zeigt sich dies bei Einzelimpulsen und
Impulsfolgen. Die Unterrepräsentation wird von der bisher gewählten
Analysefensterfunktion begünstigt, mit der sich kein Ausschaltknack
im FTT-Spektrum abzeichnet. Bei Sprachverarbeitung gibt es allerdings eine
Reihe von günstigen Effekten, die eine stärkere Verfälschung
verhindert.
- Tonalisierung von Rauschanteilen:
- Verarbeitete Rauschanteile klingen je nach Analysebandbreite `zeitvariierend
nasal' oder `plätschernd'. Ursache ist wiederum das Teiltonextraktionsprinzip
(Frequenzkonturierung), welches im regellosen FTT-Spektrum definitionsgemäß
Töne zu erkennen sucht. Dadurch schleicht sich eine Regelhaftigkeit
in das verarbeitete Signal ein, die als Tonalisierung bezeichnet werden
kann. Der Effekt stellt sich als spezielle Konsequenz des vorigen Sachverhaltes
dar und ist später bei korrekter Repräsentation und Rekonstruktion
transienter Anteile vermeidbar. Er liefert aber auch eine Argument für
die Einrichtung einer eigenständigen Repräsentation von Rauschanteilen.
Strenggenommen ist das Teiltonzeitmuster demnach keine vollständige
Audiorepräsentation. Die dritte und letzte Kategorie enthält
zwei Störeffekte, deren Ursachen in der Teiltonsynthese, also in der
Signalrekonstruktion begründet liegen. Sie entstehen im Übergang
zwischen spektraler und zeitlicher Repräsentation von Signalmerkmalen
durch das Teiltonzeitmuster. Hier prägt sich beispielsweise ein sinusbasiertes
Modulationssignal nicht mehr als zeitvarianter Einzelteilton, aber noch
nicht als Satz von stationären Teiltönen aus. Der Übergang
manifestiert sich durch spezielle Teiltonformationen mit Kurzverläufen,
Aufspaltungen und Verschmelzungen.
- Synthesefenster-kontrollierbare Störungen:
- Innerhalb der Formationen ändern sich Teiltonpegel schlagartig.
Werden die Teiltonparameter direkt in Synthesesinusschwingungen umgesetzt,
dann entsteht eine Vielzahl von breitbandigen Knacken. Weichberandete Synthesefenster
können die Störwirkung reduzieren.
- Phaseninkohärenz-bedingte Störungen:
- Bei den Formationen können gleichzeitig mehr als zwei Teiltöne
innerhalb einer Frequenzgruppenbreite vorkommen. Aber die Teiltonsynthese
stellt für die zugeordneten Synthesesinusschwingungen keine kohärenten
Phasenlagen sicher, obwohl sich Indizien hierfür bieten. Die für
das Gehör auswertbare Signalhüllkurve wird dadurch verfälscht.
Der Effekt tritt sogar bei Spaltungen und Verschmelzungen auf, wenn Wechsel
von einer auf zwei Synthesesinusschwingungen und umgekehrt stattfinden.
Weil sich bei Sprach-TTZM die Charakteristika solcher Formationen in
der ganzen Zeit/Frequenz-Ebene zeigen, erzeugen beide Störungen eine
Art Störteppich. Er paßt sich an die spektral/zeitliche Grobstruktur
des Nutzsignals an, bleibt dabei aber wahrnehmbar. Wie noch zu sehen sein
wird, entschärft dies die Effekte der zweiten Kategorie etwas.
Das Ende des Kapitels behandelte Zusammenhänge zwischen Maßnahmen
zur Datenreduktion und den dabei zusätzlich auftretenden Qualitätsbeeinträchtigungen.
Die Ergebnisse sind hier detaillierter zusammengefaßt.
Prinzipiell kann man mit einer beschränkten Anzahl von Teiltönen,
deren Parameter nur noch im groben Zeitabstand vorgegeben sind, fließende
Sprache nicht mehr mit akzeptabler Qualität darstellen. Nichttonale
Anteile erfordern dringend eine eigene Repräsentationsform, auch wenn
sie zunächst im datenreduzierten Signal enthalten zu sein scheinen.
Dies hängt mit der spezielle Natur der auftretenden Störungen
zusammen. Sie können vermutlich eine Art Ersatz bieten oder die Eigenschaft
der Wahrnehmung herausfordern, verdeckte Anteile zu rekonstruieren, selbst
wenn diese gar nicht vorhanden sind. Für tonale Anteile muß
man die wesentlichen Teiltöne auswählen können. Dafür
wird im Grunde das Modell einer noch zu erforschenden dynamischen Tonhöhenwahrnehmung
benötigt. Um weitere Störungen zu vermeiden, muß man die
zeitlich grob abgetasteten Teiltonverläufe noch vor Synthese wiederherstellen.
$Id: gre9.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $