2.6.5 Zusammenfassung und Schlußfolgerung
In diesem Abschnitt wurden Zusammenhänge zwischen Datenreduktionsmaßnahmen
und Qualitätsbeeinträchtigungen untersucht, deren Folgen die
Übertragungsqualität des datenreduzierenden TTZM-Verfahrens gegenüber
der nichtreduzierenden Grundversion erheblich verschlechtern. Am Beispiel
der Variante mit 4,4 kbit/s Datenrate wurden folgende Erkenntnisse gewonnen:
- Die Verlängerung des Auswerteintervalls als wichtigste datenreduzierende
Maßnahme bewirkt, daß eine mögliche feinzeitliche Variabilität
von Teiltonverläufen besonders zu höheren Frequenzen hin nicht
mehr richtig repräsentiert wird. Damit steigt die tonale Ausgeprägtheit
der zugeordneten Synthesesinusschwingungen, die dann in der Wahrnehmung
hervortreten. So können tonale Artefakte entstehen (`Klingeln').
- Die Beschränkung auf eine Maximalanzahl gleichzeitiger Teiltöne,
ausgewählt nach Pegel, verschärft den Kontrast der spektral/zeitlichen
Grobstruktur. Durch diese zweitwichtigste Reduktionsmaßnahme werden
nämlich größere Bereiche in der Zeit/Frequenz-Ebene nicht
mehr repräsentiert. Ein verarbeitetes Sprachsignal kann deshalb unnatürlich
überspitzt (`überartikuliert') klingen, weil die steilen spektralen
oder zeitlichen Übergänge in diese Bereiche wahrnehmbar werden.
Der Effekt könnte eventuell durch Einsatz des Tonhöhengewichts
als Teiltonauswahlkriterium verhindert werden. Die Anpassung an die zeitliche
Dynamik der Tonhöhenwahrnehmung stellt allerdings ein eigene Forschungsaufgabe
dar.
- Die Verlängerung des Auswerteintervalls verändert den ursprünglich
unspezifischen, Synthesefenster-kontrollierbaren Störteppich der Synthese
mit Rechteckfenster. Die Sprünge im Amplitudenverlauf der Synthesesinusschwingungen
werden nun als periodische Knackstörung (`Knattern') wahrnehmbar.
Zwar könnte man diese bei Synthese mit Dreieckfenster weitgehend unterdrücken.
Es scheint aber für die subjektive Sprachverständlichkeit besser,
sie zu tolerieren. Offenbar kann damit das Fehlen von Signalanteilen verschleiert
werden, die bereits der Datenreduktion zum Opfer gefallen sind, oder die
von vornherein im TTZM-Verfahren unterrepräsentiert sind.
- Das Pegelcodierverfahren mittels Interpolationsgerade begünstigt
eine störende Intensitätsmodulation der Stimme. Primär wird
sie jedoch durch das verlängerte Auswerteintervall ausgelöst,
die resultierende Stufigkeit der Syntheseparameter wird besonders bei längeren,
tieffrequenteren Teiltonverläufen wahrgenommen. Eine geeignete Teiltonverlaufsrekonstruktion
kann den Störeffekt weitgehend unterdrücken.
Mit der beschränkten Anzahl von zehn Teiltönen, deren Parameter
alle 20 ms vorgegeben sind, kann man also grundsätzlich nicht alle
Anteile von fließender Sprache in akzeptabler Qualität zu Gehör
bringen. Das erste zentrale Problem liegt in der mangelnden Repräsentation
nichttonaler Anteile. Man kann dies zwar durch Störeffekte verschleiern,
zahlt dafür aber den Preis einer unakzeptablen Signalqualität.
Ein strategischer Lösungsansatz erfordert eine separate Repräsentation
solcher Anteile. Das zweite zentrale Problem liegt darin, für die
tonalen Anteile die optimalen Teiltöne im Sinne einer dynamischen
Tonhöhenwahrnehmung herauszusuchen. Will man im übrigen die Störungen
reduzieren, so muß man sich vermehrt um eine Rekonstruktion der ursprünglichen
Teiltonverläufe zwischen den Auswertezeitpunkten bemühen.
$Id: hbdrd.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $