Für Kontur- und Kontur/Textur-Repräsentationen wurde untersucht, inwieweit sich mit einfachen Codierungsmaßnahmen brauchbare Verfahren zur datenreduzierenden Sprachcodierung aufstellen lassen. Kombinationen von Analyse- und Rekonstruktionsverfahren der vorigen Kapiteln verarbeiten die Repräsentationen in einer Auflösung, die feiner als nötig ist. In solche Analyse/Synthese-Kombinationen sollte eine `eigentliche' Codierung mit einer passenden Decodierung eingefügt werden, um akzeptable Kompromisse bei Datenrate und Verarbeitungsqualität zu erzielen. Konturlinien und Texturhüllflächen wurden dabei grundsätzlich mit Hilfe von Stützstellen codiert. Die erforderlichen Quantisierungs- und Approximationsvorgänge standen im Mittelpunkt, Ansätze zur optimalen Codewahl blieben unberücksichtigt.
Die bekannten Verfälschungen der Analyse- und Rekonstruktionsverfahren beschränken die Qualität einer Codierung von vornherein mehr oder weniger deutlich. Zur Orientierung sollten zunächst diejenigen Datenraten erkundet werden, bei denen sich die wahrnehmbare Verarbeitungsqualität nicht noch zusätzlich verschlechtert. Dafür wurde ein einfaches Codierungsschema zugrunde gelegt, das die Stützstellenparameter Zeit, Tonheit, Pegel und gegebenenfalls Phase gleichförmig quantisiert. Im Selbstversuch wurde dann die gröbstmögliche, sogenannte kritische Quantisierung für Sprache ermittelt. Da hier die zu codierende Stützstellenanzahl für Konturen noch zeitabhängig ist, erlaubt erst eine Statistik die Berechnung der effektiven Datenraten.
Die erzielten Raten reichen, je nach Analyse/Synthese-Kombination, von 100 bis 300 kbit/s, womit gegenüber dem codierten PCM-Signal von rund 150 kbit/s nichts gewonnen wurde. Verbesserte redundanzarme Codierungsschemata, bei denen eventuell noch verbliebene Irrelevanz entfernt wird, bleiben ein weites Experimentierfeld für die Zukunft. Immerhin erzielten die Kombinationen mit Textur niedrigste Werte bei recht guter Qualität. Folglich erleichtert das Kontur/Textur-Konzept die Datenreduktion. Ein bemerkenswertes Nebenergebnis dieser Untersuchungen besagt schließlich, daß eine Codierung von Konturphasen die Gesamtdatenrate nicht besonders zu erhöhen braucht. Die Stützfrequenzen von Frequenzkonturen und die Stützzeiten von Zeitkonturen können dann nämlich gröber quantisiert werden. Ein besonderer Vorteil der codierten Phasen liegt darin, daß Störungen durch suboptimale Phasenrekonstruktion von vornherein vermieden werden können. Damit liegt das praktisch erzielbare Qualitätsniveau höher.
Nach dieser Orientierung sollte, mit weiterhin einfachen Codierungsmaßnahmen, wirkliche Datenreduktion erreicht werden. Dies geschah in der Hoffnung, daß sich die nun unvermeidlichen Qualitätseinbrüche nicht als unakzeptabel erweisen würden. Dazu wurden die Quantisierung weiter vergröbert und zusätzlich Stützstellen eingespart. Eine geeignete Approximation im Decoder gewinnt hierbei an Bedeutung. Die im weiteren zugrunde gelegte Analyse/Synthese-Kombination (KTXOZ/RKHPTX) verarbeitet eine Kontur/Textur-Repräsenation ohne explizite Zeitkonturen. Diese blieben ausgeklammert, da sie bei niedrigen Datenraten nicht mehr wahrnehmungsgerecht ausgewählt werden können. Die Analyse wurde so modifiziert, daß die bei Codierung zurückgewiesenen Frequenzkontur-Stützstellen keine spektral/zeitlichen `Löcher' hinterlassen, sondern der Textur zugeschlagen werden. Auf dieser Grundlage wurden zwei Verfahren eingeführt:
Zur Qualitätssteigerung bei niedrigen Datenraten muß künftig die Auswahl der Frequenzkontur-Stützstellen verbessert werden. Weil nur wenige von ihnen codiert werden können, heben sich Fehlentscheidungen deutlicher heraus. Zwar kann man über die Konturlinienlänge als Prägnanzmaß grob zwischen tonalem und nichttonalem Beitrag unterscheiden. Man kann aber damit nicht mehr differenziert Linien oder Liniensegmente in ihrer Wahrnehmbarkeit gegeneinander abwägen. Nach dieser unsicheren Vorauswahl müssen dann noch pegelschwächere Stützstellen entfernt werden, um die Stützstellenrate zu beschränken. Dadurch erhöht sich die Wahrscheinlichkeit von Fehlentscheidungen nochmals. Für niedrige Raten ist es deshalb vorläufig besser, nicht mehr die Linienlänge, sondern allein den Stützstellenpegel als Prägnanzmaß heranzuziehen. Für ein differenziertes Prägnanzmaß wäre in Zukunft ein Modell der dynamischen Spektraltonhöhenwahrnehmung sehr willkommen. Vielleicht läßt sich auch das erwähnte, ähnlich gelagerte Problem der Datenreduktion von Zeitkonturen durch ein entsprechendes, psychoakustisch fundiertes Modell lösen.
$Id: kod9.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $