Quellen-Gesamtverzeichnis Mummert


Quellenverzeichnis Dissertation (Kürzel dort) / Quellen-Gesamtverzeichnis (Kürzel hier)
dort hier dort hier dort hier dort hier
Ada91 SP-ADA91 Gri84 AS-GRI84 Mar91 AS-MAR91 Ser90 AS-SER90
Alm82a AS-ALM82a Gri88 DR-GRI88 Mar94 DR-MAR94 Ser96 AS-SER96a
Alm82b DR-ALM82b Har78 SP-HAR78 Mca85 DR-MCA85 Sla94 AM-SLA94
Alm83 AS-ALM83 Hed82 AS-HED82 Mca86 AS-MCA86a Smi87 AS-SMI87
Aur84 KW-AUR84 Hei86 AS-HEI86 Mca87 DR-MCA87 Sot91 DR-SOT91
Bau95 KW-BAU95 Hei87a DR-HEI87a Mca88 DR-MCA88 Ste82 SO-STE82b
Ber89 AM-BER89 Hei87b DR-HEI87b Mca89a AS-MCA89a Sto86 DR-STO86
Bra87 DR-BRA87a Hei88a AM-HEI88 Mca89b AS-MCA89 Ter68a GW-TER68b
Bra94 DR-BRA94 Hei88b AS-HEI88 Mca91 DR-MCA91 Ter68b GW-TER68c
Bre90 KW-BRE90 HeiPK SO-HEIPK Mca95 DR-MCA95 Ter72a KW-TER72a
CEL95 SO-CEL95 Her84 FI-HER84 Mum90 AM-MUM90 Ter72b KW-TER72b
CSA95 SO-CSA95 Hes93 FI-HES93 Mum91 AS-MUM91 Ter74 GW-TER74
Cam90 DR-CAM90 Hor96 AS-HOR96 Naw83 AS-NAW83 Ter79 KW-TER79
Che93 DR-CHE93 HorPK SO-HORPK Nay93 AS-NAY93 Ter82 KW-TER82
Chi82 AM-CHI82 Hou85 SO-HOU85 Nol95 DR-NOL95 Ter85 SP-TER85
Coo86 AM-COO86 Huk89 AS-HUK89 Osh87 SO-OSH87 Ter87 AM-TER87
Coo93 AM-COO93 Iye91 DR-IYE91 Owe88 SP-OWE88 Ter91 KW-TER91
Cox91 DR-COX91 Jay84 DR-JAY84 Owe89 AS-OWE89 Ter92 AM-TER92
Cro83 DR-CRO83 Jay90 DR-JAY90 Pap86 SO-PAP86 The87 DR-THE87
Dis59 FI-DIS59 Joh88 DR-JOH88 Pat92 AM-PAT92 Tie80 FI-TIE80
Ell92 AM-ELL92 Jon89 SP-JON89 Pat95 AM-PAT95 Tra88 DR-TRA88
Fan50 SP-FAN50 Kap93 DR-KAP93 Pei90 AM-PEI90 Tre82 DR-TRE82
Fas89 GW-FAS89 Kon94 DR-KON94 Por80 AS-POR80 Tri79 DR-TRI79
Fei89 DR-FEI89 Kor69 AM-KOR69 Pre82 FI-PRE82 Var88 DR-VAR88
Fei90 AS-FEI90 Kra85 DR-KRA85 Pri86 AS-PRI86 Ver83 SW-VER83
Fel85 SO-FEL85 Kra88 DR-KRA88 Pri87 DR-PRI87 Vet92 AS-VET92
Fla66 AS-FLA66 Kra89 DR-KRA89 Pue91 SP-PUE91 Wol78 FI-WOL78
Fla72 SO-FLA72 LDC95 SO-LDC95 Rab78 SO-RAB78 Wu89 AM-WU89
Fla79 DR-FLA79 LPC95 SO-LPC95 Ril89 AM-RIL89 Zel77 DR-ZEL77
GSM95 SO-GSM95 Lan91 AM-LAN91 Rio91 SP-RIO91 Zer67 FI-ZER67
Gab46 SP-GAB46 Lok90 DR-LOK90 Sch62 SP-SCH62 Zwi67 GW-ZWI67
Gam71 SP-GAM71 MPE95 SO-MPE95 Sch79 DR-SCH79 Zwi80 SO-ZWI80
Ger94 DR-GER94 Mar82 SO-MAR82 Sch89 SS-SCH89b Zwi82 GW-ZWI82
Ghi87 AS-GHI87 Mar88 AS-MAR88 Sch90 SP-MUM90 Zwi90 GW-ZWI90
Gra84 DR-GRA84 Mar89 AS-MAR89 Sch91 SS-SCH91
Gre77 AS-GRE77 Mar90 DR-MAR90 Sen84 AM-SEN84

AM---
AUDITORISCHE MODELLE
AM-BEC90
Beckenbauer, T. Spektrale Inhibition als Mittel zur Sprachverarbeitung. Dissertation, Technische Universität München, 1990.
AM-BER89
Berthommier, F., Schwartz, J. L., Escudier, P. Auditory processing in a post-cochlear neural network: Vowel spectrum processing based on spike synchrony. In: Eurospeech 89, Paris, 247-250, 1989. Modell zur stochastischen Codierung der Spektralinformation am Ausgang der Cochlea. Es wird das kollektive Verhalten einer großen Anzahl von Zellen basierend auf dem Maß einer Spike-Korrelation zwischen benachbarten Einheiten untersucht. Die Diskriminierung spektraler Komponenten (Formanten) kann hiermit erhöht werden, ohne daß laterale Inhibition oder zusätzliche Filter eingeführt werden müssen. Dies ist möglich aufgrund von Synchronisation der Eingänge benachbarter Einheiten. Kompliziert. BEACHTE: Wesentlicher Beitrag ist die Formulierung eines übergeordneten Untersuchungskonzepts. Demnach wird die Gehörverarbeitung auf zwei Kanälen durchgeführt, einem phasischen (on/off-Zellen, schnelle Adaption, Frage `wann?') und einem tonischen Teil (generelle Spektralanalyse, Frage `wo?'). Dieses Konzept wurde von Chistovich (1982) vorgeschlagen. Analogie zur visuellen Wahrnehmung: Kanäle phasisch/tonisch zur zeitlichen/räumlichen Auflösung.
AM-BOS78
Bosquet, J. A synthetic model of the monaural auditory function. Biosciences Communications, 4: 160-174, 1978. Einbettung der EMDIFs nach AM-KOR69 in ein Gehörmodell. Stichwort `synthetisch', da das Gehörorgan als Ganzes betrachtet wird. Die EMDIFs entsprechen hier genau den Impulsantworten (bez. als `memory functions' - MFs) einer Filterbank. Hinweis darauf, daß die F.-Transformierte der Hüllkurve der MFs keine Nebenmaxima aufweist, was als günstig für eine Signalanalyse angesehen wird. Hervorhebung des Unterschieds zu einer FT mit Fenster über alle t, Verweis auf Pionierarbeit von Fano (SP-FAN50), Schroeder und Atal (SP-SCH62)) und Gambardella (SP-GAM71). Weiterhin wird die MF des Nervensystems durch eine Funktion modelliert, deren Hüllkurve der der EMDIFs entspricht (Verweis auf Vorstufe davon bei Schroeder und Hall 1974). Zwischengeschaltet ist eine Halbwellengleichrichtung. Diese Modell wird u.a. hinsichtlich der `thickness of the present', zeitlicher und spektraler Maskierung, Rauhigkeit von Schwebungen sowie gerade unterscheidbarem Zeitabstand zweier Klicks untersucht (kompliziert, mathematisch). Die EMDIFs wurden an 21 Personen gemessen.
AM-BOS81
Bosquet, J. La sélectivité des fibres cochléaires compareé au masquage psychophysique: essai de calcul. Acustica, 47: 248-252, 1981. Anschluß an AM-BOS78. Betonung darauf, daß versucht wird, das System Gehör (bis zum Hörnerv) als Gesamtsystem zu beschreiben, basierend auf wenigen Fakten. Es wird mit dem leicht verbesserten Modell (Filterbank/Gleich/-richter/Glättung) die Form der Selektivitätskurven des Hörnervs betimmt (Tuningkurven). Es werden keine Detailhypothesen eingeführt, trotzdem kommt die `richtige' Form heraus. Die Cochlea wird als Frequenzanalysator mittlerer Selektivität angesehen (Rhode, JASA 1971). Für die Wahl der EMDIFs nach AM-KOR69 als Impulsantwort der Filterbank werden nochmals folgende Vorteile angeführt: 1) Kausale Funktion im Gegensatz zu Gaussfunktion nach Gabor. 2) Fourier-Transformierte der Hüllkurve hat keine Nebenmaxima, i. Ggs. zu z.B. Hammingfenstern. Die Selektivitätsverstärkung zur Erklärung der Empfindung von isolierten Tönen wird auf Ebenen vermutet, die dem Hörnerv nachfolgen. Es wird unterschieden zwischen der Selektivität des Hörnervs und der Iso-Response Maskierungskurve (Verständnisschwierigkeiten...). Author berichtigt Fehler aus AM-BOS78.
AM-CAR82
Carlson, R., Granström, B. Towards an auditory spectrograph. In: Carlson, R., Granström, B., Hrsg., The Representation of Speech in the Peripheral Auditory System, 109-114. Elsevier Biomedical Press, Amsterdam, 1982. Vorschlag einer verbesserten spektrographischen Darstellung. Kritik an der bisherigen Darstellung wie vom Sonagraphen. Es würde kaum Vorwissen über das Gehör eingebracht, wie z.B. Barkskala und Maskierungseffekte. Vorschlag des DOMIN-Modells. Hier wird die einen Punkt der Basilarmembran dominierende Frequenz gegen die Barkskala aufgetragen. Für einen Sinus ergeben sich außerhalb der Maskierungsbereiche steigende Geradenstücke, dagegen innerhalb ein Plateau, da dort eine Frequenz dominiert. In Histogrammform wird die Anzahl der Punkte auf der Barkskala, die von einer Frequenz dominiert werden, als Funktion dieser Frequenz aufgetragen. Die Darstellung von Sprache durch eine Bark/Phon Darstellung (Frequenzgruppenfilter und Isolautheitskurven) unter Berücksichtigung von Masierung ergibt eine Verbesserung gegenüber dem herkömmlichen Spektrogramm. Der wichtige zweite Formant rückt in die Mitte der Darstellung, die Frikativ-Betonung wird verringert. Die Überlagerung dieser Darstelung mit dem DOMIN-Histogramm bedeutet eine weitere Verbesserung. Es zeigen sich für die tieferen Frequenzen die Linien der Harmonischen die für höhere Frequenzen in die Linien der Formanten übergehen.
AM-CHI82
Chistovich, L. A., Lublinskaya, V. V., Malinnikova, T. G., Ogorodnikova, E. A., Stoliarova, E. I., Zhukov, S. J. Temporal processing of peripheral auditory patterns of speech. In: Carlson, R., Granström, B., Hrsg., The Representation of Speech in the Peripheral Auditory System, 165-180. Elsevier Biomedical Press, Amsterdam, 1982. Wahrnehmungsmodell mit Verarbeitungskanälen wo/wann. Hierauf verweist AM-BER89.
AM-COM91
Compernolle, D. V. Noise robustness and auditory modells. OTS Workshop `The Psychophysics of Speech Perception II', Utrecht, 1.-6. July 1991, 1991. UNGELESEN Verwendung des Fensters 4. Ordnung in einem auditory modell.
AM-COO86
Cooke, M. P. A computer model of peripheral auditory processing incorporating phase-locking, suppression and adaptation effects. Speech Communication, 5: 261-281, 1986. Umfangreiches Paper über ein Computer-Gehörmodell und dessen Anwendung auf Sprache. Vorverarbeitung: Preemphasis, nichtlineare Bandpaßfilter (BPNL - Pfeiffer JASA 1970) in frequenzgruppenproportionaler Breite im Abstand 0.25 Bark von 1 bis 16 Bark, Hüllkurvenbestimmung, Adaption durch State Partition Model (SPM), Phase-Locking. BPNL bestehen aus Butterworth Bandpaß, 4. Ordnung und 1 Bark breit, mit zusätzlichen Nullstellen zur Erhöhung der Steilheit der oberen Flanke, nachfolgender 2-Ton-Supressionsschaltung und noch einem zweiten Butterworth Bandpaß, nun ohne Nullstellen und mit der Breite 0.5 Bark. Das SPM modelliert die Reizadaption der Nervenleitung: hohe Entladungsrate bei Ton-Onset, Absinken auf adaptierte Rate, bei Offset Absinken unter Spontanrate mit nachfolgender Angleichung an diese. Phase-Locking wird durch Aufzeichnung der Nulldurchgänge vor Hüllkurvenbestimmung modelliert. Modellausgang sind diese Nulldurchgangsfrequenzen, deren `Amplituden' durch die SPM-Ausgänge wiedergegeben werden. Graphische Darstellung durch `Zero Crossing Display', indem die Nulldurchgänge in der Zeit-/Frequenzebene durch Punkte dargestellt werden, deren Größe die o.g. `Amplitude' veranschaulicht. Beispiele für Sprache und Sprache in Rauschen weden gegeben. Es werden Linien erzeugt, die den Formant-Zeitverläufen entsprechen. Harmonische werden nicht wiedergegeben zugunsten glottaler Pulse. Hervorzuheben ist die Kontrastverstärkung, d.h. Ausbidung von Linien (Konturierung).
AM-COO93
Cooke, M. P. Modelling Auditory Processing and Organisation. Cambridge University Press, Cambridge UK, 1993. Cooke's Dissertation als Buch: Eine von 4 Dissertationen in computer sciences, die im Jahr in GB hervorgehoben von der `Conference of Prof. of. Comp. Sciences' publiziert werden. INHALT: 1) Auditory peripheriy: physiology, function and oranisation. U.a. `new approach to gamma tone filterbank implementation'. Darin Vergleich pole-mapping, Impulsinvarianten-Methode und Bilinear-Transformation. Demnach schneidet die Impulsinvarianten-Methode am besten ab. Das kann man am Bildvergleich Phase, Betrag, Impulsantwort bei Mittenfrequenz 8kHz sehen, die B.-Transf. ist in der Höreben bis zu 20dB selektiver als im Kontinuum. Allerdings fehlt Angabe der Abtastfrequenz, außerdem werden nichtssagende Korrelationen verwendet. Geamtmodell besteht aus gammatone filterbank, static nonlinearity und hair cell modell. 2.) Auditory representations. U.a. `validation by resynthesis'. 3.) Modelling auditory scene exploration. 4.) Implementation of auditory grouping principles. 5.) An evaluation of sound source representation in the modell. 6.) Conclusions and future development.
AM-ELL92
Ellis, D. P. W. A Perceptual Representation auf Audio. S.M. dissertation, Massachusetts Institute of Technology, 1992. Betreuer der Arbeit ist Quatieri. Auzüge aus dem Abstract: `Die Arbeit beschreibt eine Audiotransformation mit dem Ergebnis einer Repräsentation, deren Eigenschaften speziell nach einer Simulationsfähigkeit für die Quellsignaltrennung ausgelegt ist. Es wir eine Cochlea-angelehnte Filterbank verwendet, zusammen mit Maxima-Auswahl und Spurbildung. Die Repräsentation ordnet Zeit/Frequenz-Energie in getrennte Einzelelemente an, die für die ununterteilbaren Elemente der Wahrnehmung gehalten werden. Eine qualitativ hochwertige Resynthese-Methode wird beschreiben, die auch für modifizierte Repräsentationen gute Ergebnisse liefert.'     Obwohl effektiv nur f-Konturen behandelt werden, gibt es Intensitätsplots von Einschaltspektren, wo man gut die Zeitkonturen erahnen kann. Es wird auch tatsächlich das Problem der Transientenrepräsentation als Schwäche des Peak-Picking angesprochen. Es gibt Bilder von Pulsfolgen, auch von Pulsfolge-Sweeps, die wir gut von reine f-Kontur-Verarbeitung her kennen. Analyse durch Constant-Q-Gauß-Filter mit Q=9,6 (also rund 0.5Bark?) werden verwendet.     Realisierung als FIR-Filter (80Stück 0,05-10kHz, 12 Filter pro Oktave, also eins pro Halbton.) t-Downsampling. Quadratische Interpolation des Betragsmaximus (Pegel wäre besser gewesen). Spurformung nach McAulay und Quatieri. Interessant die Nachbehandlung der Spur, um bei t-Downsampling die minimale Anzahl von Stützwerten zu erhalten. Phasenverarbeitung, gegenüber der rekonstruierte Phase angeblich deutlich an Qualität verliert (kann am Kanalabstand der Rekonstruktionsfilterbank liegen). Spuranfänge und -enden werden mit linearer Rampe versehen, die 4 Zyklen der Synthesschwingung dauert (also 4ms bei 1kHz). Der Frikativ `s' in `spoil' wird als poorly modelled beschrieben. Verweis auf Serra 1989. Insgesamt angeblich sehr gute Sprachverarbeitung, manchmal etwas `washy' (aha: Plätschern!). Name des Verfahrens: `Constant-Q Sine Wave Model (CQSWM). Vergleich mit dem McAulay- und Quatieri-Verfahren -hier `Sinusoidal Transform System (STS)' gennant - in Bezug auf Datenreduktion. CQSWM gibt Transienten besser wieder (?).
AM-GLA90
Glasberg, B. R., Moore, B. C. J. Derivation of auditory filter shapes from notched-noise data. Hearing Research, 47: 103-138, 1990. Thema Frequenzgruppenform und ERB-Skala, woraus B3dB approx.10% fA (?) folgt.
AM-HEI88
Heinbach, W. Gehörgerechte Repräsentation von Audiosignalen durch das Teiltonzeitmuster. Dissertation, Technische Universität München, 1988.
AM-HIR89
Hirahara, T., Komakine, T. A computational cochlear nonlinear preprocessing model with adaptive q circuits. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Glasgow, 496-499, 1989. Cochlearmodell mit adaptiver Güte in Form einer Kaskaden-/Parallelfilterbank. Der adaptive Teil besteht aus einem Filter zweiter Ordnung, dessen Güte abhängig vom Eingangs(spektral)pegel angepaßt wird. Genaugenommen sind drei Charakteristiken gleichzeitig pegelabhängig: Selktivität (Q), Empfindlichkeit und Resonanzfrequenz. Es ergibt sich gegenüber einer linearen Filterbank eine bessere Spektralrepräsentation von Sprache: 1) schwache Konsonanten und höhere Formanten werden angehoben, 2) zeitliche und spektrale Struktur werden konsistent (gleichermaßen) dargestellt, 3) Anhebung und Verbreiterung von Spektren bei schnellen Änderungen. Es ergeben sich tatsächlich sichtbare Verbesserungen im Spektrogramm. Insbesondere ergibt sich eine deutliche KONTURISIERUNG, vor allem in Zeitrichtung. Man könnte die Q-Adaption auch als Mechanismus der selbstentscheidenden Zeit- und Frequenzkonturierung betrachten! Ein ein- und wieder ausgeschalteter Ton ergibt ein Spektrogramm wie f- und t-Kontur in AM-MUM90!
AM-KLA82
Klatt, D. Speech processing strategies based on auditory models. In: Carlson, R., Granström, B., Hrsg., The Representation of Speech in the Peripheral Auditory System, 181-196. Elsevier Biomedical Press, Amsterdam, 1982. Allgemeiner Artikel über die Möglichkeiten der Verbesserung von Spektrograph und Spracherkennung durch gehöradequate Rahmenbedingungen. Skizze eines Modells des peripheren Gehörs: 1) Preemphasis des Mittelohrs, 2) Frequenzgruppenfilter, 3) Halbwellengleichrichtung, 4) Tiefpassfilter, 5) Laterale Suppressionsschaltung zur Schärfung der Peaks, 6) Adaptionsschaltung über zeitliche Ableitung, 7) log-Transformation. Folgerung aus Beobachtungen der Abbildung von Sprache: Die Rahmenbedingungen des peripheren Gehörs reichen nicht aus, um den Spektrograph so zu verbessern, daß seine Darstellung sprecherunabhängig wird. Die Gehördaten reichen nicht aus, um Filterbandbreiten über das Frequenzgruppen maß zu erhöhen, obwohl es der sprecherunabhängigen Formanterkennung dienlich wäre. Ein ansprechender Neuansatz hierzu stellt das DOMIN-Modell dar (CAR82). Den Spracherkennungsmethoden auf LPC-Basis wird mangelnde Repräsentation von Frikativen und Nasalen bescheinigt. Skizze eines Sprachwahrnehmungsmodels: 1) Model des peripheren Gehörs, 2a-d) Transformationen zur Extraktion von Klang, Pitch, Lautheit und Rauhigkeit (Zwicker 1979), 3) Phonetische Verabeitungsstrategien. Allerdings erscheint die Repräsentation von Klang sehr allumfassend. Verbesserungsvorschlag u.a. durch Detektoren spektraler Änderung. Problem der Metrik zum Vergleich phonetischer Unterschiede wird behandelt. Am Wichtigsten scheinen die Formantfrequenzen zu sein, wogegen Formantbandbreite und spektrale Neigung in den Hintergrund treten. Fazit hierzu: bisherige phonetische Repräsentationen und Metriken haben noch deutliche Beschränkungen.
AM-KOR69
Korn, T. S. Theory of audio information. Acustica, 22: 336-344, 1969. Ungewöhnlicher Artikel über das Problem der Zeit/Frequenz-Auflösung des Gehörs. Aus Unschärferelation und Grundgleichung der Informationsrate wird ein Konzept der `elementary messages' abgeleitet. Soll nämlich ein Signal durch Elementarbotschaften (codierungstheoretisch entspricht das wohl einem `Signalwert') spektral codiert werden, so ergibt sich ein Informationswert v proportional der Zeitdauer der Elementarbotschaft. Andererseits ist die Informationsrate grundsätzlich proportional log(v)/v. Beide Beziehungen ineinander eingesetzt führen zu einem Maximum der Datenrate für eine bestimmte - systemabhängige (Colchlea!) - Zeitdauer der Elememtarbotschaften. Andererseits ergibt sich bei gegebener Länge der Botschaften eine maximale Dauer, die der Empfänger `hinschauen' muß. Das Gehör analysiert zunächst den Spektralgehalt eines Signals bis es davon genug hat, um dann auf Zeitanalyse `Umzuschalten'. Der Umschalteffekt liegt in der Form der Mithörschwelle versteckt. Ihre Fourier-Transformierte ergibt genau die `Elementary Message of Discrete Frequency' (EMDIF). Umgekehrt läßt sich nun die Mithörschwelle so definieren: Sie ist die Fourier-Transformierte desjenigen Signals, das einen hörbaren Sinuston ohne den Eindruck einer Dauer produziert. Mithilfe verfügbarer Maskierungskurven wurden EMDIFs t*t*exp(-at)*cos(wt) berechnet. In einem Querverweis auf Flanagan (REF???) wird dessen gleichartiger Vorschlag vermerkt, allerdings wird gesagt, daß dessen Vorschlag für a sich um den Faktor 30 unterscheidet. (Es werden Übrigens keine Zahlenwerte in diesem Artikel veröffentlicht!). Die Phasenlage, die ja auch invertiert sein könnte ((t)->(-t)), wird damit begründet, daß die zeitliche Maskierung dann nicht stimmt: man hört ein allmählich einsetztendes und abrupt endendes Signal. Dies spricht für eine schnell ansteigende und zwangsläufig langsam abfallende Fensterfunktion, also GEGEN Gauß-Fenster. Solche Elementarfunktionen wurden aus mathematischer Sicht schon 1946/1953 von Gabor vorgeschlagen.
AM-LAN91
Langhans, A. Zur Frequenzabhängigkeit der Nachverdeckung. In: Fortschritte der Akustik - DAGA '91, 561-564, DPG-GmbH, Bad Honnef, 1991. Messumgen, Unterstützung These, daß Nachverdeckung zwei Ursachen hat: frequenzabh. Ausschwingen der Basilarmembran kurzfristig und frequenzunabh. neuronale Prozesse längerfristig. Zwicker & Co. wußten das: Siehe AM-PEI90, Seite 4.
AM-MOO83
Moore, B. C. J., Glasberg, B. R. Suggested formulae for calculating auditory filterbandwiths and excitation patterns. J. Acoust. Soc. Am., 74: 750-753, 1983. UNGELESEN - wird durch AM-GLA90 ersetzt.
AM-MUM90
Mummert, M. Trennung von tonalen und geräuschhaften Anteilen im Sprachsignal. In: Fortschritte der Akustik - DAGA '90, 1047-1050, DPG-GmbH, Bad Honnef, 1990. Ausweitung der spektralen Konturierung auf Zeitkonturen, Verfahren zur Isolierung tonaler Anteile und Anwendung Zeitkontur und tonal-Trennung auf Sprachsignal.
AM-PAT92
Patterson, R. D., Robinson, K., Holdsworth, J., McKeown, D., Zhang, C., Allerhand, M. H. Complex sounds and auditory images. In: Cazals, Y., Demany, L., Horner, K., Hrsg., Auditory Physiology and Perception, 429-446. Pergamon, Oxford, 1992. Aktueller Stand der Gammatone-Filterbank.
AM-PAT95
Patterson, R. D., Allerhand, M. H. Time-domain modeling of peripherial auditory processing: A modular architecture and a software platform. J. Acoust. Soc. Am., 98(4), 1995. Gewissermaßen das README zur Simulations Software des Auditory Image Modells (AIM), eine etabliertes Gehörmodell (mit Gammaton-Filterbank), welches nunmehr im Internet verfügbar ist. Grobbeschreibung und Literaturzitate, aber keine wesentlichen inhaltlichen Auseinandersetzungen.
AM-PEI90
Peisl, W. Beschreibung aktiver nichtlinearer Effekte der peripheren Schallverarbeitung des Gehörs durch ein Rechnermodell. Dissertation, Technische Universität München, 1990.
AM-PIT96
Pitton, J. W., Wang, K., Juang, B.-H. Time-frequency analysis and auditory modeling for automatic recognition of speech. Proc. IEEE, 84(9): 1199-1212, 1996. Spektrogramme und Kontur-ähnliche Bilder. Erhalten durch T. Horn.
AM-RIL89
Riley, M. D. Speech Time-Frequency Representations. Kluwer Academic Publishers, Boston, 1989. Analyse mit gerichteten (rotierten) Kerneln, potentiell glättend in beide Richtungen, daher keine Harmonischen oder Zeitkonturen erwünscht, sonder Formantverläufe (Kernelparameter sigma_t, sigma_omega, theta). Konturbildung `ridges' durch a) LPC-Polverläufe (schlecht), b) spectral peaks (schlecht bei den Kreuzungen), c) vektorgeometrische Betrachtungen bei ungerichteten Kerneln und d) wie c), aber mit gerichteten Kerneln.
AM-SEN84
Seneff, S. Pitch and spectral estimation of speech based on auditory synchrony model. Working Papers Vol. IV, Res. Lab. of Electr., Speech Communication Group, Massachusetts Institute of Technology, Mai 1984. Vorstellung eines Gehörmodells für die Verarbeitung stimmhafter Sprachregionen unter Benutzung von Wissen über das Gehör. Kernstück ist die Nachbildung der Nutzung von Synchronizität im `Feuer'-Muster der Nerven durch den `Generalized Synchrony Detector' (GSD). Dadurch werden Formanten im Spektrum angehoben; auch läßt sich die Grundfrequenz bestimmen. Vorverarbeitung erfolgt durch überlappende Frequenzgruppenfilter, nichtlineare Hüllkurvenkompression und Halbwellengleichrichtung. Jeder Kanal besitzt einen GSD, der im Wesentlichen mittlere Summe und Differenz von Signal und um die Periodendauer der Kanalfrequenz verzögertem Signal dividiert. Dadurch ergibt sich eine `Kontrast-verstärkte' Spektralschätzung. Die GF wird durch Summierung aller Vorverarbeitungskanäle und wiederum Auffächerung in die GSD-Kanäle gewonnen. Der `Vorteil' ist hierbei, daß es keine Oktav-Verwechsungen geben soll. Wenig Praxisbewertung.
AM-SLA94
Slaney, M., Naar, D., Lyon, R. F. Auditory model inversion for sound separation. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Adelaide, Band  2, 77-80, 1994. MMK-Zusammenfassung: `Lyons Filterbank mit anschließender AGC (Cochleagram) und Autocorrelation eines jeden Kanals (?) führt zum Correlogram. Dieser Artikel beschreibt die Umkehrung und damit Resynthese jedes Kanales der Filterbank.' Phasenrekonstruktion mit verbessertes Verfahren nach AS-GRI84.
AM-SLA95
Slaney, M. Pattern playback from 1950 to 1995. To be presented at the 1995 IEEE Systems, Man and Cybernetics Conference, Oct. 22-25, 1995, Vancouver, Canada, 1995. Erhalten durch T. Horn.
AM-SOT93
Sottek, R. Modelle zur Signalverarbeitung im menschlichen Gehör. Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 1993. Zusammenfassung der Psychoakustik und Modell: Vorverarbeitung, gehörangepaßte Bandpaßfilterbank, Gleichrichtung und TP-Filterung, Nichtlinearität, Entfaltung. Berechnung elementarer Empfindungsgrößen mit dem Modell. Automatische Klassifikation von Schallereignissen mit neuronalen Netzen. Verbindunginteressanter signalverarbeiterischer Teilverfahren mit einem Gehörmodell, etwas Rundumschlagtendenz. Gründliche Darstellung psychoakustischer Grundlagen. HSA - hochauflösende Spektraltransformation: Durch rekursive Entfaltung (spektrale Subtraktion) der geschätzten Signalanteile (Betragsmaxima) recht genaues Verfahren (leider nur drei Beispiele: FM 11kHz Ton mit 200 Hz, AM, Sprachsignalausschnitt) Adaptive Fensterung: Vorabbestimmung der zeitlichen Hüllkurve liefert eine optimal an die Zeitfunktion angepaßte Fensterfunktion. Anschließend Teilbandzerlegung und HSA/DFT Kaskade (VFT, variable Fourier Transformation). Es bleibt unklar, wie rekursive Entfaltung im Gehör realisiert sein könnte.
AM-TER68d
Terhardt, E. Untersuchung über die Datenreduktion durch das menschliche Gehör. In: Marko, H., Färber, G., Hrsg., Kybernetik 1968, 383-395. Oldenbourg-Verlag, München, 1968.
AM-TER87
Terhardt, E. Psychophysics of audio signal processing and the role of pitch in speech. In: Schouten, M. E. H., Hrsg., The Psychophysics of Speech Perception, 271-283. M. Nijhoff Publ., Dordrecht, 1987. Es wird erstmals das Konzept der spektralen Konturierung veröffentlicht.
AM-TER92
Terhardt, E. From speech to language: On auditory information processing. In: Schouten, M. E. H., Hrsg., The Auditory Processing of Speech: From Sounds to Words, 363-380. Mouton de Gruyter, Berlin, 1992. Zusammenfassung der wichtigsten Terhardt'schen Grundsätze der Verarbeitung von Information durch das Gehör und deren Rahmenbedingungen. A) Information in der Wahrnehmung: 1) Information ist gekennzeichnet durch Beteiligung von Kategorien und bedingten Entscheidungen, 2) Information wird reflektiert durch bedingte (Re-)Aktion, 3) Informationsverarbeitung in der Wahrnehmung ist universell und vorherrschend, 4) sie beginnt bereits in der äußersten Peripherie, 5) Konturierung ist der erste Schritt zur Abstraktion, 6) K. in der `spatiale' visuellen Wahrnehmung, 7) Tonhöhe als `spatiale' auditorische Kontur, 8-11) SPTHZM, TTZM, virtuelle Kontur, zeitliche Konturen. B) Folgerungen aus der Wahrnehmung: 1&2) hierarchische Informationsverarbeitung, 3) Nach-Oben-Offenheit, verteiltes Wissen, Unabhängigkeit und verteilte Erkennung, 4) Introspektion (das Selbst beobachtet die Wahnehmungskanäle. C) Physikalische Rahmenbedingungen der Audio-Kommunikation: Mehrfachquellen, Raumübertragung, FTT.
AM-TER97
Terhardt, E. Lineares Modell der peripheren Schallübertragung im Gehör. DAGA '97 in Kiel, 1997. Dimensionierung von Tiefpaßfiltersektionen mit hoher Resonanzüberhöhung alias Bandfilter allein aus Ruhehörschwelle und Tuning-Kurven. Vorgeschaltetes Außen-Mittelohr-Filter. Entspricht FTT-Fensterfunktion mit Fenstergrad n=5.
AM-WEB77
Weber, D. L. Growth of masking and the auditory filter. J. Acoust. Soc. Am., 62(2): 424-429, 1977. Rückschluß auf die Charakteristik des Gehörfilters durch Maskierungsexpermient. Die Schwelle für einen Sinuston zentriert in der Lücke eine Breitbandrauschens wurde bei verschiedenen Pegeln gemessen. Die Schwelle wird dann als S/N-Abstand für ein Filter in der Lückenmitte ermittelt. Für schmale Lücken ist der S/N-Abstand unabhängig vom Pegel, jedoch nicht so bei breiteren Lücken. Der dann bei steigendem Pegel steigende S/N-Abstand impilziert ein Filter mit steigender Bandbreite (Die Auffächerung der oberen Flanke wäre demnach ein Folgeeffekt der steigenden Bandbreite, also ändert sich die Frequenzgruppenbreite. Aber es kommt sowieso auf's gleiche hinaus: die Frage ist, bei welchem Dämpfungswert der Filtercharakteristik wird die Bandbreite gemessen). Der gemessene Effekt läßt einen Rückschluß auf die Variation der 3dB-Bandbreite um den Faktor 2 zu (80-160Hz bei 1kHz bei Rauschpegel 10 bis 50dB). Ab 50dB Rauschpegel (weisses Rauschen von 0 bis 2*Lückenmittenfrequenz) kommt die Frequenzgruppenbreite wie bei Zwicker heraus. Allerdings bedeutet Faktor zwei in der Bandbreite nur eine S/N-Veränderung von 3dB (Messgenauigkeit?), doch verfügbare Daten werden gut approximiert. Die Berücksichtigung der Bandbreitenveränderung ist nur wichtig bei größerem Frequenzabstand von Signal und Maskierer. Ansonsten ist die Annahme einer konstanten BB ausreichend (im Endeffekt ähnlich wie Zwicker).
AM-WU89
Wu, Z. L., Schwartz, J. L., Escudier, P. A theoretical study of neural mechanism specialized in the detection of articulatory-acoustic events. In: Eurospeech 89, Paris, 235-238, 1989. Modell von einem Hörbahnmechanismus zur Erkennung artikulatorisch-akustischer Ereignisse (AAE) in Sprache. Dieser ist auf ein Modell des peripheren Gehörs aufgesetzt. Forschungsgrundlage ist die Idee, das postcochleäre Verarbeitung aus relativ unabhängigen Modulen besteht. Wesentlicher Effekt hierbei ist Adaption. Verweis auf Delgutte, der z.B. zeigte, daß Adaption die postcochleäre Erkennung von Plosiv-Burst und vokalischen Onset wesentlich erleichtert (1980,'82,'84,'86). In diesem Beitrag werden on- und off-Ereignisse in den Kanälen bestimmt und jeweils zu drei Gruppen (tief-, mittel- und hochfrequent) zusammengefaßt. Damit können AAEs erkannt werden, solche sind onset und termination von voice, consonantal voice, vocalic voice, friction, consonantal friction.
AM-ZWI56
Zwicker, E. Die elementaren Grundlagen zur Bestimmung der Informationskapazität des Gehörs. Acustica, 6: 365-381, 1956. sehr allgemein.

AS---
ANALYSE/SYNTHESE-SYSTEME
AS-ABR91
Abrantes, A., ??? Hybrid sinusoidal modelling of speech without voicing detection. Proc. of Europ. Conf. on Speech Comm., pp. ???, 1991. UNGELESEN.
AS-ALE90
Alessandro, C. d'. Time-frequency speech transformation based on an elementary waveform representation. Speech Communication, 9: 419-431, 1990. Sehr interessante Repräsentation des Sprachsignals als Summe elementarer Wellenformen mit der Möglichkeit spektral-zeitlicher Manipulationen in Anlehnung an das klassische Sprachproduktionsmodell. Dazu wird ein Synthese-Modell mit zwei Grundtypen von Wellenformen eingeführt: 1) Sinuston mit konstanter Hüllkurve, die im Randbereich weich ein- und ausschwingt (cos-Flanken) und 2) Sinuston mit exponentiell abklingender Hüllkurve, die zusätzlich weich einschwingt (cos-Flanke). Parameter sind Frequenz, Amplitude, Zeitlage, Phasenlage, Anschalt- und Abschalt- bzw. Abklingkonstante. Wellenform 2) wird oberhalb 500Hz verwendet, um die Antworten der VT-Formanten auf die (leicht verundeten) glottalen Impulse darzustellen, während 1) im Basisband zur Parametrisierung der unteren Harmonischen dient. Zur Modellierung eines Signals in diesen Wellenformen wird im Basisband eine STFT und darüber eine LP-Analyse durchgeführt. Dadurch erhält man unterhalb 500Hz eine spektrale Fein- bzw. oberhalb eine Grobstruktur. Durch Maximumdetektion werden die Orte der Harmonischen bzw. Formanten bestimmt. Durch adaptive Filterung mittels eines SFTF-Overlapp-Add-Verfahrens werden jetzt die einzelnen Regionen der Harmonischen bzw. Formanten herausgefiltert und mit den entsprechenden Wellenformtypen gefittet. Ohne Fitting (Modellierung der Wellenformen) entspricht das Synthesesignal offenbar dem Eingangssignal. Mit Modellierung ergibt sich angeblich, wenn überhaupt, ein sehr geringer Qualitätsverlust. So werden Rausch- und Plosivanteile ebenfalls gut repräsentiert. Verschiedene Möglichkeiten der Zeit-Frequenzmodifikationen werden angesprochen: Formant-, Rausch-, Plosiv-, Pitchänderungen, Frequenzkompression und -expansion. Datenreduktion wird nicht behandelt.
AS-ALM82a
Almeida, L. B., Tribolet, J. M. A spectral model for nonstationary voiced speech. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Tokyo, 1303-1306, 1982. Vorläufer 1/2 von AS-ALM83, Theorie ohne Coderspezifikation.
AS-ALM83
Almeida, L. B., Tribolet, J. M. Nonstationary spectral modelling of voiced speech. IEEE Trans. Acoust., Speech, Signal Processing, 31(3): 664-677, 1983. Modellierung von Schallsignalen durch verallgemeinerte spektrale Linien und praktische Anwendung für Sprachsignalcodierung. Angeblich kann das Modell bei beliebig hoher Ordnung grundsätzlich jedes Signal fehlerlos repräsentieren. Offenbar kommt bei Beschränkung auf Ordnung null so etwas wie ein harmonisches Sinustonmodell mit Phasenbeziehungen heraus. Hergeleitet wird das ganze über das klassische Vokalerzeugungsmodell Impulsquelle/Vokaltraktfilter (Verweis Buch Rabiner and Schafer, 1978). Durch Umskalierung der Zeitachse (time warping) kann das Anregungssignal durch frequenzkonstante Harmonische (generalized harmonics) dargestellt werden, die dann vom zeitvarianten VTF gefiltert werden. Die Umskalierungsfunktion, deren Ableitung den Grundfrequenzverlauf repräsentiert, zieht sich durch das ganze Modell. Es wird dabei ein zeitvariantes Kurzzeitspektrum (STFT) bestimmt, welches an den Harmonischen durch Reihenentwicklungen mit Ableitungen der FT des Analysefensters dargestellt wird. Die Koeffizienten dieser Entwicklung sind nach Ableitungsordnung und Nummer der Harmonischen geordnet und zeitvariant. Die Koeffizienten der Ordnung null stellen die Amplituden und Phasen des Sinustonmodells dar (s.o.). Das angegebene Rechenverfahren benötigt nicht die explizite Berechnung der Umskalierungsfunktion, wohl aber eine Schätzung der Startgrundfrequenz von einem externen Pitch-Detektor. Es liefert dann Korrekturwerte für Grundfrequenz und die besagten Koeffizienten. Bei hypothetisch beliebig hoher Ordnung braucht die Umskalierungsfunktion wohl nichts mehr mit der tatsächlichen Grundfrequenz zu tun haben. Das Modell weist prädiktive Eigenschaften auf, deren Eigenschaften zur Codierung nutzbar sind. Das Realierungskonzept eines Harmonischen Coders wird skizziert. Das Residualsignal (Differenzspektrum Original/Modell) wird groß bei stimmlosen Anteilen. Es muß keine voiced/unvoiced-Entschiedung getroffen werden. Rückgewinnung aus dem rekonstruierten Spektrum durch Overlap-Add. Für eine Datenrate von 4.8kbit/s wird auführlicher eine Struktur in einem LPC-Vocoderrahmen beschrieben, in der das Signal erst nach LPC-Inversfilterung als Modelleingang verwendet wird. Der LPC-Vocoder verwendet allerdings hier einen voiced/unvoiced-Detector. Der Modelldatenstrom beträgt dabei 2.6kbit/s, es wird kein Residualsignal übertragen (s.a. Überschrift `voiced'). Informelle Hörtests lassen auf eine höhere Qualität gegenüber LPC-Verfahren bei vergleichbarer Datenrate schließen.
AS-COO93
eds. M. Cooke, S. Beet, Crawford, M. Visual Representations of Speech Signals. J. Wiley & Sons, 1993. UNGELESEN - wichtig.
AS-DEM88
Dembo, A., Malah, D. Signal synthesis from modified discrete short-time transform. IEEE Trans. Acoust., Speech, Signal Processing, 38(2): 168-181, 1988.
AS-FEI90
Feiten, B., Becker, H. Analyse/Synthese-Verfahren zur Modellierung von Klängen. In: Fortschritte der Akustik - DAGA '90, 533-536, DPG-GmbH, Bad Honnef, 1990. Maximumdetektion im FFT-Spektrum, Linienfindung und Codierung mit Stützpunkten, mit und ohne Verwendung von Initalphasen bei Linienbeginn (vergl. AS-GRE77).
AS-FLA66
Flanagan, J. L., Golden, R. M. Phase vocoder. Bell Syst. Tech. J., 45: 1493-1509, Nov. 1966. Erfindung des Phasenvocoders.
AS-GHI86
Ghitza, O. Speech analysis synthesis based on matching the synthesized and the original representations on the auditory nerve level. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Tokyo, 1995-1998, 1986. UNGELESEN-wird durch AS-GHI87 erfaßt.
AS-GHI87
Ghitza, O. Auditory nerve representation criteria for speech analysis/synthesis. IEEE Trans. Acoust., Speech, Signal Processing, 35(6): 736-740, 1987.
AS-GRE77
Grey, J. M., Moorer, J. A. Perceptual evaluations of synthesized musical instrument tones. J. Acoust. Soc. Am., 62(2): 454-462, 1977. Untersuchung mit dem Ziel, die wesentlichen Merkmale der Teiltöne eines Instrumententons herauszufinden. Interessant ist einmal die verwendete Analyse/Synthese-Technik als Vorläufer eines Teiltonverfahrens, zum anderen die verschiedenen Ansätze zur Datenreduktion, die letztlich den Rückschluß auf die wesentlichen Merkmale zulassen. Bilder wie TEILTONZEITMUSTER. Die Technik basiert auf dem Prinzip des Phasenvocoders und kommt bei der eingeschränkten Teiltonfreiheit einstimmiger Instrumente letztlich auf ein Verfahren analog MAC86a heraus. Unter Verwendung einer SFTT-Terminologie richtet sich die Kanalzahl nach dem Teiltonabstand, da Periodensynchron gearbeitet wird und der Fenstertyp ist ein Rechteckfenster. Man könnte das Ganze auch als Analyse/Synthese einer Fourierreihe ansehen, mit dem Unterschied, daß das Phasenvocoderprinzip Inharmonzitäten zuläßt. Fünf Schalle wurden miteinander verglichen: 1) Original, 2) komplexe Synthese (volle Ausnutzung des Verfahrens), 3) Liniensegment Approximation (vermtl. 25-50msec Länge), 4) wie 3) mit Entfernung der inharmonischen Anfangsteiltöne (Anblasteiltöne), 5) wie 3) aber TT-Frequenzen konstant. Fazit: 2) fast wie 1), 3) sehr geeignete Vereinfachung, 4) `Anblasteiltöne' sind offenbar wichtig, schlechtestes Ergebnis, 5) nicht so gut wie 3).
AS-GRI84
Griffin, D. W., Lim, J. S. Signal estimation from modified short-time Fourier transform. IEEE Trans. Acoust., Speech, Signal Processing, 32(2): 236-243, 1984.
AS-GRO89
Grovel, S., Lienard, J. S., Allessandro, C. d'. Representation of the speech signal with elementary waveforms: A preliminary perceptive study. In: 13th Intern. Conf. on Acoustics, Belgrade, Yugoslavia 1989, ???, 1989. UNGELESEN - Vorstudie von AS-ALE90 ?
AS-HED81
Hedelin, P. A tone-oriented voice-excited vocoder. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Atlanta, 205-208, 1981. Die erste Sinustonrepräsentation, Beschreibung eines Codecs.
AS-HED82
Hedelin, P. A representation of speech with partials. In: Carlson, R., Granström, B., Hrsg., The Representation of Speech in the Peripheral Auditory System, 247-250. Elsevier Biomedical Press, Amsterdam, 1982. Vorstellung einiger Gedanken eines Modells zur Repräsentation von Sprache mit Hilfe von Teiltönen (Partials).
AS-HEI86
Heinbach, W. Untersuchung einer gehörbezogenen Spektralanalyse mittels Resynthese. In: Fortschritte der Akustik - DAGA '86, 453-456, DPG-GmbH, Bad Honnef, 1986. Erste Veröffentlichung des Heinbach-TTZM-Verfahrens. Bericht über Versuch, komplettes Betragsspektrum zu synthetisieren.
AS-HEI88
Heinbach, W. Aurally adequate signal representation: The part-tone-time-pattern. Acustica, 67: 113-121, 1988. Erster englischsprachiger Aufsatz zum TTZM. Kurzer Abriß von den Ergebnissen von Hb's Dissertation.
AS-HOE84
Höge, H. New filter bank design for a channel vocoder based on the perception properties of the human ear. Siemens Forsch.- u. Entwickl.-Ber., 13(2): 68-73, 1984. Aufbau einer Frequenzgruppen-proportionalen Filterbank mittels Frequenz-Bark-Variablentransformation.
AS-HOR96
Horn, T. Image processing of speech with auditory magnitude spectrograms. Zur Publikation in Acustica united with acta acustica angenommenes Manuskript, eingereicht 1996, Erscheinen angekündigt für 1998.
AS-HOV83
van Hove, P. L., Hayes, M. H., Lim, J. S., Oppenheim, A. V. Signal reconstruction from signed fourier transform magnitude. IEEE Trans. Acoust., Speech, Signal Processing, 31(5): 1286-1293, 1983. Theorie und Algorithmus zur Rekonstruktion von ein- oder mehrdimensionalen begrenzten (zeitdiskreten) Sequenzen aus dem Betrag der Fourier-Transformation unter Hinzufügung einer 1bit-Phaseninformation. Allerdings werden einige milde Nebenbedingungen gestellt, u.a. Kausalität oder Antikausalität, Reellwertigkeit. Obwohl auch Sprache angesprochen wird, scheint das Anwendungsziel die Bildverarbeitung zu sein. Der theoretische Teil ist schlecht strukturiert und schwer zu verstehen.
AS-HUK89
Hukin, R. W., Damper, R. I. Testing an auditory model by resynthesis. In: Eurospeech 89, Paris, 243-246, 1989. Die Gültigkeit des DOMIN-Modells (Gehörmodell nach Carlson und Granström 1982, im Wesentlichen berücksichtigt es die Barkskala und die Mithörschwellen) wird mit der Resynthese von Testschallen in Hörtests bestätigt. Aber leichte Problem scheint es doch bei den Konsonanten zu geben, da mit wenigen Teiltönen der Schall repräsentiert wird.
AS-KLA82
Klatt, D., Seneff, S., Zue, V. Design considerations for optimizing the intelligibility of a dft-based, pitch-excited, critical-band-spectrum speech analysis/resynthesis system. Working Papers 1, Res. Lab. of Electr., Speech Communication Group, Massachusetts Institute of Technology, Juni 1982. Vergleich zweier Vocoder-Verfahren, einmal konstante Banbbreite, einmal Frequenzgruppen-proportional. Mit der Anwendung von spektraler Spitzenhervorhebung für letzteres Verfahren zeigen beide die gleiche Qualität in Hörtests.
AS-KOV93
Kova?evi?, J., Vetterli, M. Perfect reconstruction filter banks with rational sampling factors. IEEE Trans. Signal Processing, 41(6): 2047-2066, 1993.
AS-MAD89
Madhu Murty, K. V., Yegnanarayana, B. Effectiveness of representation of signals through group delay functions. Signal Processing, 17: 141-150, 1989. Untersuchung der Möglichkeiten und Grenzen der Darstellung von Signalinformationen durch die Gruppenlaufzeit. Artikel bezieht sich wesentlich auf Veröffentlichungen des Koautors (ASSP-32, Jun. 1984, S.610-622 und auch JASA-63, 1978, S.1638-1640 und ASSP-33, Aug. 1985, S.832-836). In der von 1984 zeigt der Autor offenbar, daß Signale durch zwei Gruppenlaufzeitfunktionen dargestellt werden können. Die eine ist die Ableitung der Phase der FT, die andere wird aus dem Betrags der FT errechnet (auch Ableitung?). Bei Minimum- bzw. Maximumphasensystemen sind beide betragsgleich mit gleichem bzw. verschiedenen Vorzeichen. Die Vorteile der Gruppenlaufzeitdarstellung liegen angeblich in der Addierbarkeit und der hohen Auflösung.
AS-MAR88
Marques, J., Almeida, L. Sinusoidal modeling of speech: Representation of unvoiced sounds with narrow band basis functions. In: et al., J. Lacoume, Hrsg., Signal Processing IV, Theories and Applications, 891-894. Elsevier Science Publisher B. V. (North-Holland), 1988.
AS-MAR89
Marques, J., Almeida, L. Sinusoidal modeling of voiced and unvoiced speech. In: Proc. of Europ. Conf. on Speech Comm., 203-206, 1989. Teilkonzepte für Sinusoidal (nicht Harmonic) Coder werden verglichen und bewertet. Unvoiced-Darstellung durch harmonischen Tonkomplex mit Randomphase. Voiced/Unvoiced-Entscheidung nötig. Grundlage für DR-MAR90, dort aber Harmonic Coder fuer Voiced-Anteil.
AS-MAR91
Marques, J. S., Trancoso, I. M., Abrantes, A. J. Sinusoidal modeling of speech signals: A framework for perceptual studies. In: OTS Workshop `The Psychophysics of Speech Perception', Utrecht, 1991. Der Artikel will den Schwerpunkt für die Modellierung von Sprache durch Sinustöne nicht auf codierungs-Anwendungen setzen, sondern auf die Eignung als Rahmen für die Untersuchung der Wahrnehmung. Angeblich wird Sinuston-Modellierung in der Literatur oft als überparametrisiert und zu stark an voiced/unvoiced-Entscheidung gebunden angesehen. Das beschriebene Verfahren benutzt ein harmonisches Sieb zur Pitch-Extraktion und verwendet harmonische Frequenzen im voiced- und gleichverteilte im unvoiced-Fall (Marques et al., ICASSP 1990, S.17-20). Der Einfluß der Amplituden auf die Qualität ist nicht so groß. Zur Beurteilung des Einflusses der Phasen auf die Qualtität wurden neben den exakten Phasen a) Zufallsphasen und b) Phasenanpassung an den vorhergehenden Rahmen eingesetzt (quasi ein harmonisches TTZM-Verfahren!). Zusätzlich wurde eine Frequenzgrenze eingeführt, ab oder unter der die Phasenbeeinflussung stattfand. Die Beurteilung fand anhand einer 5-stufigen Skala (etwa MOPS ? - Mean Opinion Score) statt, auf der mit exakten Phasen 4.5 erreicht wird. Wird ab etwa 1200 - 1500Hz Verfahren a) eingesetzt, so sinkt die Qualität um einen Punkt, darunter fällt sie drastisch (ab dieser Frequenz braucht das Gehör nur noch Textur!). Es wird vermutet, daß für stimmlose Anteile eine Phasenrepräsentation überflüssig ist (eben!). Wird im ganzen Frequenzbereich Verfahren b) eingesetz, so sinkt die Qualität ebenfalls nur um einen Punkt (Das dürfte beim TTZM bei 50Hz konst.-B3dB mit/ohne Phasen auch so herauskommen). Weitere Versuche wurden bei Anwesenheit von Rauschen gemacht, welches das Grundverfahren wohl durcheinander bringt (mangelnde Robustheit!). Weiter wird festgestellt, daß eine hohe Anzahl von Tönen benötigt wird, um stimmlose Anteile darzustellen, ca. 80 von 0 bis 4kHz pro 20ms-Rahmen. Als Ausweg wird zunächst ein erweitertes Konzept angesprochen, in dem die Sinustöne durch Bandpassrauschen, sog. narrow band basis functions (NBBFs), dargestellt werden. Danach werden nur noch 20 NBBFs benötigt. Das Problem ist hierbei die harte Umschaltung Sinuston/NBBF. Als Lösung wird auf ein Hybrid-Konzept verwiesen, das beide Repräsentationen parallel verwendet (Abrantes et al., Proc. Euro. Conf. on Sp. Comm., 1991). Es kann auch gemischt voiced/unvoiced darstellen und benötigt letztlich keine voiced/unvoiced-Entscheidung mehr. Viel wichtige LITERATUR! Das ganze ist das EUREKA-Projekt 151 mit Beteiligung von Philips, Uni Bochum und RWTH Aachen!
AS-MCA84
McAulay, R. J., Quatieri, T. F. Magnitude-only reconstruction using a sinusoidal speech model. In: Intern. Conf. on Acoustics, Speech and Signal Processing, San Diego, 27.6.1-4, 1984. UNGELESEN.
AS-MCA86a
McAulay, R. J., Quatieri, T. F. Speech analysis/synthesis based on a sinusoidal representation. IEEE Trans. Acoust., Speech, Signal Processing, 34(4): 744-754, 1986. Beschreibung eines dem TTZM am nächsten stehenden Verfahrens, inkusive Linienverfolgung (Concept of Birth and Death), mit folgenden Unterschieden: FFT (512 Punkte, 10ms) mit nachjustiertem Hammingfenster (2.5-fache Grundfrequenz, Mittel über 250ms), Phasen werden mitgeführt und kubisch interpoliert zur Synthese (eine Variante ohne Phasenübertragung mit Phasenfortführung bei Synthese wird ebenfalls betrachtet, Rechtfertigung über ein Speech Production Modell mit (anfechtbarer) Quasistationarität. Übereinstimmung der theoretischen und experimentellen Ergebnisse mit denen von Mummert, hinsichtlich: Notwendigkeit der Phasen, Dichte der Teiltöne für Geräusch, Dreieckflanken-Interpolation bei Synthese. Anwendung zur Datenreduktion und Sprachmodifikation (vergl. SS-QUA86a). Verfahren wurde später patentiert (AS-MCA89.
AS-MCA89
McAulay, R. J., Quatieri, T. F. Patent 4,885,790 - 43.72.Gy Processing of Acoustic Waveforms. Assignors to Massachusetts Institute of Technology, 5 Dec. 1989 (Class 381/36), 1989. Patent auf Verfahren aus AS-MCA86a. Aus Patent-Review JASA 1991, S. 490.
AS-MCA89a
McAulay, R. J., Quatieri, T. F. Phase coherence in speech reconstruction for enhancement and coding applications. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Glasgow, 207-210, 1989.
AS-MUM91
Mummert, M. Rücktransformation des Kurzzeitspektrums der Fourier-t-Transformation und Ansatz für eine gehörgerechte Transformationskodierung. In: Fortschritte der Akustik - DAGA '91, 753-756, DPG-GmbH, Bad Honnef, 1991. FTT-Rücktransformation, Psychoakustische Invarianz des Systems FTT-RFTT, Ansatz Transformationscodierung.
AS-NAW82
Nawab, S. N. Signal Estimation from Short-Time Spectral Magnitude. Ph.D. Thesis, Massachusetts Institute of Technology, 1982.
AS-NAW83
Nawab, S. H., Quatieri, T. F., Lim, J. S. Signal reconstruction from short-time Fourier transform magnitude. IEEE Trans. Acoust., Speech, Signal Processing, 31(4): 986-998, 1983. Theorie und Realisierung der Rekonstruktion eines diskreten Signals vom Betrag seines Kurzzeitspektrums. Zunächst werden die Bedingungen der exakten Rekonstruierbarkeit abgeleitet, getrennt für a) maximale bzw. b) teilweise Überlappung endlicher Fenster. Diese sind im wesentlichen: Das Signal muß kausal oder antikausal, das endliche Fenster muß vollständig bekannt und ohne Nullstellen sein. Für a) muß das Vorzeichen des ersten Nichtnullwertes bekannt sein und es dürfen nicht mehr als N-2 Nullwerte nacheinander vorkommen, wobei N die Fensterlänge ist. Für b) darf die Fensterüberlappung nicht weniger als 50 % betragen, es dürfen maximal N-2L Nullwerte aufeinander folgen und L aufeinderfolgende Werte müssen vom ersten Nichtnullwert an bekannt sein, mit L als Überlappungslänge. Es werden drei Rechenverfahren zur Bewältigung der Aufgabe vorgestellt: sequentielle Extrapolation, sequentielle Least-Squares-Extrapolation und iterative sequentielle Extrapolation. Ein viertes wird skizziert. Verfahren 2 & 3 sind robuster als das exakte Verfahren 1 und eignen sich besser für den praktischen Gebrauch, in dem im offenbar akkumulierte Rundungsfehler (am Beispiel von Sprache aufgezeigt) oder modifizierte Spektren problematisch sind. Weitere Verwendungsvorschläge: Zeitmaßstabveränderungen und Rauschreduktion.
AS-NAY93
Nayebi, K., Barnwell, T. P., Smith, M. J. T. Nonuniform filter banks: A reconstruction and design theory. IEEE Trans. Signal Processing, 40(9): 2207-2232, 1993.
AS-OWE89
Owens, F. J., Murphy, M. S. Non-uniform RFT filterbank design for speech processing. In: Eurospeech 89, Paris, 605-608, 1989. U.a. Versuch des Aufbaus einer übertragungsneutralen Filterbank mit Frequenzgruppen-proportionaler Bandbreite. Kann als Lösungsversuch einer FTT-Rücktransformation gelten.
AS-POR76
Portnoff, M. R. Implementation of the digital phase vocoder using the fast fourier transform. IEEE Trans. Acoust., Speech, Signal Processing, 24(3): 243-248, 1976. Basispaper für die Implementierung des Phasenvocoders nach AS-FLA66.
AS-POR80
Portnoff, M. R. Time-frequency representation of digital signals and systems based on short-time Fourier analysis. IEEE Trans. Acoust., Speech, Signal Processing, 28(1): 55-69, 1980. Ausführliche Theorie zur Analyse und (Re-)Synthese zeitdiskreter Signale und Systeme über die STFT. Viel Formelakrobatik. Insbesondere wird die Grundlage für die zeitvariante Filterung mit Hilfe des Kurzeitspektrums gelegt. Darstellung Kurzzeitspektralanalyse und -synthese als Filterbank oder als Sequenz von Fourier-Transformation zeitl. gew. Abschnitte, zeitvariante Filterung. Diskretisierung in t und f, Möglichkeit ohne Redundanz zu Übertragen, zeitvariante Filterung bei Diskretisierung.
AS-PRI86
Princen, J., Bradley, A. Analysis/synthesis filterbank design based on time domain aliasing cancellation. IEEE Trans. Acoust., Speech, Signal Processing, 34(5): 1153-1161, 1986. Grundlagenartikel zum TDAC-Prinzip.
AS-RIC96
Richard, G., Alessandro, C. d'. Analysis / synthesis and modification of the speech aperiodic component. Speech Communication, 19: 221-244, 1996. UNGELESEN .
AS-SAT89
Satt, A., Malah, D. Design of uniform DFT filter banks optimized for subband coding of speech. IEEE Trans. Acoust., Speech, Signal Processing, 37(11): 1672-1679, 1989. UNGELESEN.
AS-SER90
Serra, X., Smith, J. O. A sound analysis/systhesis system based on a deterministic plus stochastic decomposition. Computer Music Journal, 14(4): 12-24, 1990. Grobe Ähnlichkeit mit Frequenzkontur/Textur-Verarbeitung von Mummert, jedoch rein quellorientiert und verwendet die Sinusrepräsentation von McAulay und Quatieri. System erfordert manuellen Eingriff. Wohl nützlich zu Generation von sysnthetischen Instrumentenklängen.
AS-SER94
Serra, X. Musical sound modeling with sinusoids plus noise. `Draft August 1994', Homepage des Autors über http://www.iua.upf.es/eng/IUA.html im Internet am 30.9.95. Übersichtliches Manuskript offenbar für ein Kapitel in einem geplanten Buch. Ergänzt AS-SER90. Internet-Resource existiert in dieser Form nicht mehr. Ersetzt durch AS-SER96a.
AS-SER96a
Serra, X. Musical sound modeling with sinusoids plus noise. `Draft 22.2.96', http://www.iua.upf.es/eng/recerca/mit/sms/articles/msm/msm.html
[1]
im Internet am 13.4.96. HTML-Version von AS-SER94.
AS-SMI87
Smith, M. J. T., Barnwell, T. P. A new filter bank theory for time-frequency representation. IEEE Trans. Acoust., Speech, Signal Processing, 35(3): 314-327, 1987. Formalismus in Matritzenschreibweise, der nebenbei auch die Behandlung von Filterbänken mit frequenzabhängigen Filtercharakteristiken erlaubt.
AS-STR87
Strawn, J. Analysis and synthesis of musical transitions using the discrete short-time fourier transform. J. Audio Eng. Soc., 35(1/2): 3-13, 1987. Verfahren, in dem Töne von Musikinstumenten mit einem Phasenvocoder-Analyseprinzip in Form der Amplituden- und Phasenzeitverläufe ihrer Harmonischen dargestellt werden. Spezielles Augenmerk auf Nutzbarkeit einer Liniensegment-Approximation und Verfahrensweise bei Tonübergängen. Kein Verweis auf AS-GRE77!
AS-VAI90
Vaidyanathan, P. P., Liu, V. C. Efficient reconstruction of band-limited sequences from nonuniformly decimated versions by use of polyphase filter banks. IEEE Trans. Acoust., Speech, Signal Processing, 38(11): 1927-1936, 1990. Sehr spezieller Aufsatz; 'nonuniformly decimation' bezieht sich nicht auf verschiedene Bandbreiten innerhalb einer Filterbank, sondern beschreibt ein Polyphasenfilter-realisierbares Unterabtast- und Rekonstruktionsschema.
AS-VEL96
Veldhuis, R., He, H. Time-scale and pitch modifications of speech signals and resynthesis from the discrete short-time Fourier transform. Speech Communication, 18: 257-279, 1996. UNGELESEN (Nur Titel mit Abstract vorhanden). U.a. Verbesserung der Methode von AS-GRI84.
AS-VET92
Vetterli, M., Herley, C. Wavelets and filter banks: Theory and design. IEEE Trans. Signal Processing, 40(9): 2207-2232, 1992. Tutorial-haftes, sehr langes Paper über die Gemeinsamkeiten von Kurzzeit-Spektraltranformation, Filterbänken und Multiresolutional Analysis. Bedingungen für perfekte Rekonstruktion. Leider dann doch sehr viel Mathematik.
AS-YAN92
Yang, X., Wang, K., Shamma, S. Auditory representations of acoustic signals. IEEE Trans. Inform. Theory, 38(2): 824-839, 1992.

BV---
BILDVERARBEITUNG
BV-CAN88
Cano, D., Minh, T. H. Texture synthesis using hierachical linear transforms. 1988, (15): 131-148, Signal Processing. Bildverarbeitung. Texturmodell basierend auf hierarchisch strukturierter lineare Filterung. Texturmerkmale aus Mittelwert, Varianz und Moment 3. Grades der Filterausgänge.
BV-CAR88
Carlsson, S. Sketch based coding of grey level images. Signal Processing, (15): 57-83, 1988. Bildverarbeitung. Alorithmus zur Datenkompression für Graustufenbilder. Codierung von Geometrie und Graustufen-Information der Bildkonturen. Aus dieser Skizzen-Information kann ein erkennbares Bild gewonnen werden. Separate Codierung der Textur durch Laplace-Pyramiden, ausgehend von Differenz zwischen Original und Skizze. Kompressionsfaktoren 60-75. Hauptproblem ist die Gewinnung der wahrnehmungsgerechten Skizze.

DR---
DATENREDUKTION
DR-ALM82b
Almeida, L. B., Tribolet, J. M. Harmonic coding: A low bit rate good quality speech coding technique. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Paris, 1664-1667, 1982. Vorläufer 2/2 von AS-ALM83, Coderspezifikation ohne Theorie.
DR-ALM84
Almeida, L. B., Silva, F. M. Variable frequency synthesis: An improved harmonic coding scheme. In: Intern. Conf. on Acoustics, Speech and Signal Processing, San Diego, 27.5.1-4, 1984..
DR-BRA83
Brandenburg, K.-H. A 16 bit adaptive transform coder for real time processing of sound signals. In: Schüssler, H. W., Hrsg., Signal Processing II: Theories and Applications, 359-362. Elsevier Science Publishers B. V. (North Holland), 1983. Bericht über eine Implementierung des ATC-Verfahrens von DR-ZEL77 in 16bit-Arithmetik auf einem Signalprozessor in Echtzeit. Offenbar recht gute Qualität bei 100kbit/s für Sprache und Musik.
DR-BRA87a
Brandenburg, K.-H. OCF - A new coding algorithm for high quality sound signals. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Dallas, 141-144, 1987. Erste Internationale Veröffentlichung des OCF-Verfahrens. Erläuterung des Coder-Konzepts. Wie auch bei ATC wird zunächst eine DCT durchgeführt. Während die optimale Quantisierung bei ATC gleiche Qunatisierungsstufenhöhe, aber eine dem Spektralkoeffizient angepaßte Stufenanzahl zuweist, wird bei OCF für alle Koeffizienten der gleiche Quantisierer eingesetzt. Dadurch, daß bei zunehmender Korrelation im Zeitbereich die Un-Flachheit im Spektralbereich zunimmt, kann für die Koeffizienten die Entropie-Codierung angewendet werden. Die Bitzuweisung geschieht iterativ mit veränderlicher Quantisiererstufe, um eine feste maximale Datenrate zu erhalten. Soweit ist OCF ATC ebenbürtig oder etwas besser. Nun gibt es für die Bitzuweisung bei OCF aber noch eine äußere Schleife. Sie berücksichtigt die Psychoakustik und erzwingt ein Quantisierungsgeräusch-Shaping unter die Mithörschwellen. Durch gegenseitige Maskierung können ganze Koeffizienten unberücksichtigt bleiben. Weitere 'Tricks': Unbenutzte Bits können im nächsten Block verwendet werden. Zählung der Null-Koeffizienten von hohen Frequenzen her. Usw. Um die Qualität objektiv Messen zu können, wird ein Mithörschwellenzeitmuster durch eine DFT mit nachgeschalteten Spreadingfunctions berechnet. Das Überschreiten der simulierten Mithörschwelle durch das Codierungsgeräusch wird frequenzselektiv durch Flags angezeigt (s. EBE88).
DR-BRA87b
Brandenburg, K.-H. Echtzeitrealisierung einer 3 Bit Codierung für Musiksignale. In: Kleinheubacher Tagung , Kleinheubacher Berichte, Band Nr. 31, 205-213, 1987. Beschreibung eines weiterentwickelten LC-ATC-Verfahrens und dessen Realisierung in Echtzeit. Gegenüber DR-ZEL77 wird offenbar DFT statt DCT verwendet. Grobquantisierung des Spektrums in Frequenzgruppen. Zuteilung der restlichen Bits so, daß gleiche Quantisierung aller Spektralkoeffizienten pro Frequenzgruppe erfolgt. Mindesquantisierung pro Frequenzgruppe, dadurch sicherere Verdeckung des Quantisierungsgeräusches. Verzicht auf Reiteration bei zu hoher Blockbitzahl, sondern schnelle Korrektur bei hohen Frequenzen. Der Vorteil von LC-ATC gegenüber der bereits propagierten OCF besteht in einem deutlich geringerem Aufwand, bei leichten Qualitätseinbußen. Details zur Realisierung mit einem AT&T DSP32 Signalprozessor. Anwendung Meßverfahren mit simulierten Mithörschwellen und Maskierungs-Flag (DR-BRA87a).
DR-BRA87c
Brandenburg, K.-H. Evaluation of quality for audio encoding at low bit rates. In: 82nd Conv. of the Audio Eng. Soc., London, ???, 1987. Erste internationale Veröffenlichung des Meßverfahrens (DR-BRA87a). Knappe Beschreibung der Verfahren ATC und OCF des Hauses, Beschreibung des Meßverfahrens, Messergebnise für ATC, OCF und NICAM.
DR-BRA88a
Brandenburg, K.-H., Kapust, R. Fast signal processor encodes 48 khz/16 bit audio into 3 bit in real time. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 2528-2531, 1988. Internationale Vorstellung der LC-ATC in Echtzeit (vergl. DR-BRA87b,DR-SEL88). Hinweis, daß der Einsatz einer DCT-artigen Transformation mit TDAC (Time Domain Alias Cancelling) erst noch bevorsteht.
DR-BRA88b
Brandenburg, K., Grill, B., Jonuscheit, H., Kapust, R., Seitzer, D., Sporer, T. Übertragung von hochwertigen Tonsignalen mit Datenraten im Bereich 64 - 144 kbit/s. In: ITG-Fachtagung `Hörrundfunk', VDE-ITG Fachbericht Nr. 106, VDE-Verlag, 217-222, 1988. Übersichtlicher Aufsatz. Es werden sehr kompakt und verständlich die Unterschiede der LC-ATC zur klassischen ATC nach DR-ZEL77 aufgeführt und erwähnt, daß eine MDCT (Modifizierte DCT, wobei die Modifikation sich offenbar auf Einsatz von TDAC nach DR-PRI87 bezieht) angewendet wird. Darstellung, im gleichen Sinne, von OCF, Maskierungs-Flag-Meßverfahren. Überlegungen zur Hardware-Realisierung. Identisch mit DR-BRA89.
DR-BRA88c
Brandenburg, K.-H. High quality sound coding at 2.5 bit/sample. In: 84th Conv. of the Audio Eng. Soc., Paris, ???, 1988. Zusätliche Fakten zum OCF-Verfahren (BRA87a). Beschreibung des TDAC-Verfahrens und des Verfahrens zur Behebung der Vorecho-Problematik.
DR-BRA88d
Brandenburg, K.-H., Kapust, R., Seitzer, D., Eberlein, E., Grill, B., Krägeloh, S., Popp, H., Schott, H. Low bit rate codecs for audio signals - implementation in real time. In: 85th Conv. of the Audio Eng. Soc., Los Angeles, ???, 1988. Übersichtsaufsatz. Realisierungsspezifische Details für Echtzeitimplementierung von ATC und OCF. Durch Modifikation der OCF-Algorithmen konnte die Anzahl der DSP 56000 von 4 auf 1 gesenkt werden. Die Erkennung von Vorechos ist nicht mehr nötig.
DR-BRA88e
Brandenburg, K.-H., Seitzer, D. Ocf: Coding high quality audio with data rates of 64 kbit/sec. In: 85th Conv. of the Audio Eng. Soc., Los Angeles, ???, 1988. OCF jetzt mit 64 kbit/s und 128 kbit/s Consumer- bzw. Studioqualität. Wichtig: Beschreibung einiger Detail-Verbesserungen ansonsten wenig neues.
DR-BRA89
Brandenburg, K., Grill, B., Jonuscheit, H., Kapust, R., Seitzer, D., Sporer, T. Übertragung von hochwertigen Tonsignalen mit Datenraten im Bereich 64 bis 144 kbit/s. Rundfunktechnische Mitteilungen, 33(5): 209-213, 1989. Übersichtsartikel übrt die am Lst. f. Technische Elektronik der Uni Erlangen-Nürnberg entwickelten Verfahren: Low-Complexity Adaptive Transfom Coding (LC-ATC), Optimalcodierung im Frequenzbereich (OCF), Meßverfahren zur objektiven Messung der Überschreitung der MHS durch Codierungs-Fehlergeräusch. Angaben zur Echtzeitrealisierung. Identisch mit DR-BRA88b.
DR-BRA89b
Brandenburg, K. Ein Beitrag zu den Verfahren und der Qualitätsbeurteilung für hochwertige Musikcodierung. Dissertation, Technische Universität Erlangen, 1989. Originalton MMK-LST: Relativ ausführliche Beschreibung OCF und DCT, Überblick über Zeitbereichsverfahren: PCMLOG - logarithmische Quantisierung, NICAM - Normalisierung über Blockbereich, Skalenfaktor für linksschieben, Deltamodulation - Oversampling und 1-bit-Quantisierer, CD-I - Abtastratenwandler, verschiedene feste Praedikatoren (PCM, DPCM 1. + 2. Ordnung), Auswahl des Prädikators anhand kleinsten Fehlersignal CSX - Filtersatz (Ganzzahlarithmetik,invertierbar) auf Block von Abtastwerten angewandt, Auswahl des Filtersatzes mit geringstem Maximalwert des Betrages (dadurch geringste Bitzahl zur Quantisierung) Datenrate schwankt um 342kBit/s Frequenzbereichsverfahren: Unterteilung in Subbandcoder und Transformationscoder, Oberbegriff Filterbankcoder Subbandcoder: Realisierung üblicherweise als Halbbandfilter ( Zerlegung eines Bandes in zwei gleich breite Teilbänder durch TP/HP Kombination mit f_g = f_a/4, anschließend Unterabtastung, Gesamtzahl der Abtastwerte bleibt gleich ). Die Kaskadierung dieser Halbbandfilter ermöglicht Aufteilung des Frequenzbereiches in mehr als zwei Teilbänder. Hinweis: Überfaltungsfehler sollten sich auslöschen, QMF - Quadrature Mirror Filter. Critical Band Coder: QMF Filterbaum Tiefe 2 -7, Blocklänge angepaßt an Vorverdeckung, Bitzuteilung nach Mithörschwelle MASCAM: Ähnlich CBC. Transformationscoder: ATC-Verfahren: (Adaptive Transformations-Codierung) Zelinski-Noll-ATC: DCT 128 ATW Blöcke, log.quant. Energie steuert Bitzuteilung (Grobverlauf Spektrum). MSC: Multiple Spektrale Codierung, Fensterung, FFT 1024 ATW, Überlappung 64 ATW , Grobquantisierung (2 Bit), Maximalwerte steuern Feinquantisierung. OCF: Optimal Codierung im Frequenzbereich Keine Bitzuteilung aus Grobverlauf Spektrum wie bei ATC. Codierung erfolgt mit Huffmancode variabler Wortlänge entsprechend Frequenzgruppen. Heraufsetzen Quantisierungsstufen bis Maskierungsschwelle erreicht ist. Verwendete Transformation: MDCT ( Modifizierte Diskrete Cosinus-Transsformation). Fensterfunktion: Sinus-Fenster. 256 oder 512 ATW, 6.5 % Überlappung. Huffmann-Coder: Codebuch(tabelle) muß durch Untersuchungen über statistische Verteilung der Signale aufgestellt werden. Der Rest der Arbeit besteht aus einem Vergleich der verschiedenen Coder. Fazit: OCF macht mit 2.5 bit/ATW und höchster Qualität das Rennen.
DR-BRA94
Brandenburg, K., Stoll, G. ISO-MPEG-1 audio: A generic standard for coding of high quality digital audio. J. Audio Eng. Soc., 42(10): 780-792, 1994. Englische Übersetzung von DR-STO92.
DR-CAM90
Campbell, J. P. Jr., Tremain, T. E. The proposed Federal Standard 1016 4800bps voice coder: CELP. Speech Technology, 58-64, April/May 1990. Detaillierte Beschreibung des CELP-Standards.
DR-CHE93
Cheng, Y.-M., O'Shaughnessy. On 450-600 b/s natural sounding speech coding. IEEE Trans. Speech Audio Processing, 1(2): 207-230, 1993.
DR-COL95
Colomes, C., Lever, M., Rault, J. B., Dehery, Y. F., Faucon, G. A perceptual model applied to audio bit-rate reduction. J. Audio Eng. Soc., 43(4): 233-240, 1995. Autoren Bedauern das Fehlen einer straight frequency transform für die Barkskala. Offenbar Signalanalyse mit 40ms-Fenster und anschließender Frequenzgruppenaufteilung. Anwendung dieses Modells im MUSICAM Codec und Vermessung. Verwenden vor allem die Daten von Zwicker. Mehr ein technischer Bericht.
DR-COP88
Copperi, M. Rule-based speech analysis and application to celp coding. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 143-146, 1988. Datenrate von 2-3kBit/s bei hoher Qualität.
DR-COX91
Cox, R. V., Hagenauer, J., Seshadri, N., Sundberg, C.-E. W. Subband speech coding and matched convolutional channel coding for mobile radio channels. IEEE Trans. Signal Processing, 39(8): 1717-1731, 1991. Es geht um das Problem, daß Störung der einzelnen Bits des Codes eines Codierungsverfahrens zu sehr unterschiedlichen Qualitätseinbußen führen. Kanalcodierung!
DR-CRO83
Crochiere, R. E., Rabiner, L. R. Multirate Digital Signal Processing. Prentice-Hall, Englewood Cliffs, NJ, 1983. Vielzitiertes Buch der Transformationscodierer.
DR-EBE88
Eberlein, E., Seitzer, D., Brandenburg, K.-H., Gerhäuser, H., Kapust, R., Krägeloh, S., Schott, H. Meßgerät auf psychoakustischer Grundlage für die Optimierung von Datenreduktionsverfahren. In: Bericht 15. Tonmeistertagung Mainz, ???, 1988. Begündung der Notwendigkeit eines Meßgerätes: psychoakustische Versuch sind a) aufwendig, b) nicht Echtzeit und c) ungeeignet, um einen definierten Sicherheitsabstand zum Hörbarwerden von Fehlern sicherzustellen. Beschreibung des Meßverfahrens: DFT, Einteilung in Frequenzgruppen, Bestimmung der Verdeckung innerhalb der Gruppen (MHS), Bestimmung der gegenseitigen Verdeckung (MHS), Berücksichtigung der Ruhehörschwelle (gekoppelt an Abhörlautstärke!). Aus Gründen des Aufwands wurde bei den Mithörschwellen eine Worst-Case Verdeckung angenommen, um keine Frequenz- und Pegelabhängigkeit berücksichtigen zu müssen. Mit der so berechnete Gesamt-Mithörschwelle wird das Differenzsignal zwischen transcodiertem und unbehandeltem Signal DFT-analysiert und der Noise-to-Mask-Ratio bestimmt. Ist das Fehlersignal überschwellig, so wird für die jeweilige Frequenzgruppe ein Maskierungsflag gesetzt. Die Rate der Maskierungsflag-Anschläge ist ein Maß für die Qualität. Weitere Angaben zu Realisierung in Echtzeit folgen. Offenbar funktioniert das Verfahren nicht 100Maskierungsflag nicht anschlägt. Vor und Nachhörschwelle wird direkt nicht berücksichtigt. Problematisch erscheint die Block-DFT mit konstanter Fensterlänge, die zu große zeitliche Unschärfe bei hohen Frequenzen haben müßte. Impulsvorecho-Effekte der blockorientierten Codecs können bestimmt nicht so sicher erkannt werden. NMR-Werte gelten nur für ein bestimmtes Musikstück.
DR-EDE88
Eder, B. Prädiktive Teilbandcodierung mit Vektorquantisierung für Audiosignale hoher Tonqualität. ITG Fachbericht 106 `Hörrundfunk', Mainz, Nov. 1988, 1988. UNGELESEN. Noch so ein Verfahren wie MSC und OCF, interessant allerdings die Vektorquantisierung.
DR-FEI89
Feiten, B. F. Beurteilung von Quellencodierungsverfahren für Audiosignale bei Berücksichtigung der Verdeckungseigenschaften des Gehörs. Dissertation, Technische Universität Berlin, 1989. Beschreibung eines Verfahrens ähnlich MSC und OCF.
DR-FLA79
Flanagan, J. L., Schroeder, M. R., Atal, B. S., Crochiere, R. E., Jayant, N. S., Tribolet, J. M. Speech coding. IEEE Trans. Commun., 27(4): 710-737, 1979. Etwas alt, vielleicht historisch interessant.
DR-FLA80
Flanagan, J. L. amd Christensen. Computer studies on parametric coding of speech spectra. J. Acoust. Soc. Am., 68(2): 420-430, 1980.
DR-GER94
Gersho, A. Advances in speech and audio compresseion. Proc. IEEE, 82(6): 900-918, 1994. Sehr schöner Übersichtsartikel.
DR-GOM88
Hernández-Gómez, L. A., Casajús-Quirós, F. J., García-Gómez, R. High-quality vector adaptive transform coding at 4.8kb/s. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 167-170, 1988. Verfahren, welches das Prinzip der Vektor-Codebook Codierung zusammen mit LPC im Spektralbereich anwendet (für Sprache).
DR-GRA84
Gray, R. Vector quantization. IEEE ASSP Magazine, 4-29, April 1984. Sehr gute Einführung.
DR-GRI88
Griffin, D. W., Lim, J. S. Multiband excitation vocoder. IEEE Trans. Acoust., Speech, Signal Processing, 36(8): 1223-1235, 1988. Grundfrequenzerkennung, voiced-unvoiced Detektion für jede Harmonische, später sehr erfolgreiches Codec.
DR-HEI87a
Heinbach, W. Verständlichkeitsmessungen mit datenreduzierten natürlichen Einzelvokalen. In: Fortschritte der Akustik - DAGA '87, 665-668, DPG-GmbH, Bad Honnef, 1987. Heinbach's Vokaluntersuchungen.
DR-HEI87b
Heinbach, W. Datenreduktion von Sprache unter Berücksichtigung von Gehöreigenschaften. ntz-Archiv, 9(12): 327-333, 1987. Heinbach's Datenreduktionsverfahren für 4 und 16kbit/s, Verständlichkeit bewertet durch Reimtest. Erste Veröffentlichung des TTZM-Verfahrens außerhalb der DAGA.
DR-IYE91
Iyengar, V., Kabal, P. A low delay 16 kb/s speech coder. IEEE Trans. Signal Processing, 39(5): 1049-1057, 1991. LPC-Verfahren. Qualitätsgleich mit 7bit log-PCM.
DR-JAK88
Jakubowski, H., Spikowski, G. SQAM - Eine UER-CD zur subjektiven Qualitätsbeurteilung von Audiosignalen. Rundfunktechnische Mitteilungen, 32(1): 1-5, 1988. Beschreibung einer genormten Test-CD für Übertragungsverfahren. Zeitgleiche Erscheinung im EBU Rev. Tech. und im Rev. de l'UER Tech., nahezu identisch später mit DR-SPI88.
DR-JAY84
Jayant, N. S., Noll, P. Digital Coding of Waveforms. Prentice-Hall, Englewood Cliffs, NJ, 1984. Vielzitiertes Buch der Transformationscodierer.
DR-JAY89
Jayant, N. S. Speech coding: The 4.8kbps challenge. ISSE '89 International Symposium on Signals, Systems and Electronics, 1989. UNGELESEN.
DR-JAY90
Jayant, N. S., Lawrence, V. B., Prezas, D. P. Coding of speech and wideband audio. AT&T Tech. J., 25-41, September/Oktober 1990. Review der aktuellen Technik zur Sprach- und Audiocodierung aus weiter Perspektive (Normungen, CCITT). Aufsatz wirkt etwas unsystematisch. Europäer werden vernachlässigt. Sehr viel LITERATUR.
DR-JAY93
Jayant, N. S., Johnston, J., Safranek, R. Spignal compression based on models of human perception. Proc. IEEE, 81(10): 1385-1422, 1993.
DR-JOH88
Johnston, J. D. Transform coding of audio signals using perceptual noise criteria. IEEE J. on Selected Areas in Communication, 6(2): 314-323, 1988. Vorstellung eines 'Perceptual Transform Coders' (PXFM), der sich auf ein Gehörmodell mit Mithörschwellen stützt. Hervorgehoben wird der wahrnehmungs- gegenüber den verbreiteten Quellen-Modell-orientierte Ansatz. Verwendung von FFT und 'Spreadingfunctions' nach Schroeder et al. (1979) zur Modellierung von Mithörschwellen. Bitzuweisung durch Zusammenfassung zu Gruppen und Anwendung von Kompressionsalgorithmen. 128kbit/s (in Zukunft 96) für eine Bandbreite 0 bis 15kHz für transparente Codierung.
DR-KAL89
Kalveram, H., Meissner, P. Itakura-saito clustering and rate distortion functions for a composite source model of speech. Signal Processing, 18: 195-202, 1989. Schwer zugänglicher, formal-mathematischer Artikel, dessen Anwendung im Bereich der LPC-Vektor-Quantisierer liegt.
DR-KAP93
Kapust, R. Qualitätsbeurteilung codierter Audiosignale mittels einer BARK-Transformation. Dissertation, Universität Erlangen-Nürnberg, 1993. Spektralanalyse auf Basis eines Filterbankkonzeptes, welches in einer iterativen Prozedur entworfen fast genau Frequenzgruppen-proportionale Bänder ergibt, synthesefähig, sehr geringe Schwankungen der Gesamt-ÜF, sehr steile Flanken, überschwingende FF, leichte Stufung, Frequenzgruppen an jeder Stelle möglich. FIR/Polyphasen-Realisierung mit TDAC/FFT. Diskussion FTT nach Heinbach (Übrigens keine Verweise auf Schlang und Mummert, obwohl Terhardt zweiter Berichter). Auf Basis dieser Transformation wird dann ein umfangreiches System zur Messung über/unter-schwelliger Codierfehler vorgestellt. Die Maße AES (audible error) und EMS (error margin) werden damit eingeführt. Es wird viel mit der Heisenbergschen Unschärfe für die Zeit/Frequenz-Auflösung argumentiert, speziell wird als Minimum BT=0,5 angenommen (Fragwürdig wegen Rechteckannäherung im Spektralbereich und sinc im Zeitbereich). TUB: DA93 2906.
DR-KLE95
Kleijn, W. B., Paliwal, K. K., Hrsg. Speech Coding and Synthesis. Elsevier Science B. V., Amsterdam, 1995. Alles was Rang und Namen hat ist hier mit Beiträgen vertreten. Chen mit LD-CELP, McAulay und Quatieri mit STC usw. TUB: ELT 533f 96 A 1399.
DR-KON88
Kondoz, A. M., Evans, B. G. CELP base-band coder for high quality speech coding at 9.6 to 2.4 kbps. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 159-162, 1988. CELP-BB-Verfahren, welches besser als ein CELP bzw. ein Vector Quantized Transform Coder arbeitet.
DR-KON94
Kondoz, A. M. Digital Speech - Coding for Low Bit Rate Comunication Systems. J. Wiley & Sons, New York, 1994. Sehr schönes Buch. Enthält alles wesentliche zum CELP-Umfeld und behandelt ausführlich den Multiband-Excitation-Vocoder nach DR-GRI88. TUB: ELT 536f 95 B 105.
DR-KRA85
Krahé, D. Neues Quellencodierungsverfahren für qualitativ hochwertige, digitale Audiosignale. In: ITG-Fachtagung `Hörrundfunk', Tagungsband, NTG-Fachbericht Nr. 91, VDE-Verlag, 371-381, 1985. Gut verständliche und kompakte Darstellung des Krahé-Verfahrens. Begründung der Wahl der DFT gegenüber der DCT: bei geeigneter Fensterung erreicht die DFT gleiche signaltheoretische Vorteile. Beschreibung und Begründung des Noise-Shaping-Effekts. Nachbildung von Mithörschwellen, Berücksichtigung und Ausnutzung von Vor- bzw. Nachhörschwellen.
DR-KRA88
Krahé, D. Grundlagen eines Verfahrens zur Datenreduktion bei qualitativ hochwertigen, digitalen Audiosignalen auf Basis einer adaptiven Transformationscodierung unter Berücksichtigung psychoakustischer Phänomene. Dissertation, Universität - Gesamthochschule - Duisburg, 1988. Komplette Beschreibung des Krahéschen MSC-Verfahrens.
DR-KRA89
Krahé, D. Was genügt dem Gehör? - Datenreduktion bei digitalen Audiosignalen. In: Fortschritte der Akustik - DAGA '89, 141-156, DPG-GmbH, Bad Honnef, 1989. Nach geschichtlichem Überblick und Übersicht über konkurriende Verfahren (OCF und MASCAM) wird Kraheé's MSC-Verfahren detaillierter vorgestellt. Beurteilung des MASCAM-Verfahrens als hauptsächlich Irrelevanz (i.G.z. Redundanz) reduzierendes Verfahren. Später wird ausführlicher eine Abgrenzung von den anderen Verfahren unternommen. In der Klasse der Transformationscodierer hat das MSC-Verfahren den Vorteil, eine knappe Zeitfensterlänge anzuwenden (23ms Blocklänge), was die Vorecho-Problematik leichter kontrollierbar erscheinen läßt. Die resultierenden Filterflanken können allerdings das Mithörschwellenverhalten nicht überall nachbilden. Das OCF-Verfahren hat eine größere Flankensteilheit, da es die DCT einsetzt, welche durch eine immanente zeitl. Überlappung eine größere effektive Fensterlänge besitzt und damit Randeffekte entschärft, ohne eine höhere Datenrate zu benötigen. Eine größere Flankensteilheit, besonders im Bereich der unteren Flanke bei Frequenzen tiefer 2kHz erscheint aber als gar nicht so wichtig, da in diesem Frequenzbereich die meiste Energie liegt, die ihrerseits die Mithörschwelle dominierend beeinflußt. Subbandcodern wie dem MASCAM-Verfahren wird zwar eine bessere Gehörnachbildung zugestanden, allerdings bestünde bei ihnen keine Unterscheidungsmöglichkeit zwischen schmalen und gruppenbreitbandigen Signalen. Die Möglichkeit des exakteren Noise-Shaping sei hier nicht vorhanden, außerdem gäbe es Probleme bei der Bit-Zuweisung durch die verschiedenen Kanal-Abtastraten.
DR-LIU89
Liu, T. M., Höge, H. Phonetically-based LPC vector quantization of high quality speech. In: Eurospeech 89, Paris, 356-359, 1989. Verbesserung der Datenrate einer Vektorquantisierung für LPC durch Anpassung an phonetische Klassifizierungsschemata.
DR-LOK90
Lookabaugh, T. D., Perkins, M. G. Application of the Princen-Bradley filter bank to speech and image compression. IEEE Trans. Acoust., Speech, Signal Processing, 38(11): 1914-1926, 1990. Anwendung eines speziellen Subband-Filterbankschemas (reelle Bandsignale) zur Datenreduktion von Sprache. Möglichkeit der perfekten Wiederherstellung kennzeichnet das Filterbank-Schema. Vergeich durch Implementierung eines 16kbit/s-Sprachcoders nach Heron et al. (1983) in dieser Technik, bzw. in DFT-Block- und QMF-Technik. SNR, SNRSEG und Hörvergleiche lassen QMF und PBFB vorne legen. Weitere Anwendung in der Bildkompression.
DR-MAR90
Marques, J. S., Almeida, L. B., Tribolet, J. M. Harmonic coding at 4.8kb/s. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Albuquerque, 17-20, 1990. Eine ausgereifte Version des Harmonischen Coderprinzips, die in stimmlosen Segmenten einfach eine sehr geringe Grundfrequenz annimmt und dann durch Random-Synthesephasen den Rauschcharakter erzwingt. Grundfrequenzerkennung, stimmhaft/stimmlos-Unterscheidung. Komplement zu DR-MAR94.
DR-MAR94
Marques, J. S., Abrantes, A. J. Harmonic coding of speech at low bit-rates. Speech Communication, 14: 231-247, 1994. Pitch estimation, harmonics, Bandpaß-Rauschsignale alias `narrow band basis functions (NBBF)', LPC-Koeffizienten bestimmt im Frequenzbereich, zwei LPC-Koeff.-Sätze jeweils für harmonics and noise, rein speech production orientiert. Im Vergleich mit MAR90 doppelte Bevorzugung, im Vergleich mit CELP allerdings immer noch halbe Bevorzugung in Hörversuchen. Artefakte wg pitch estimation. Trennung harmonics and noise über Wahrscheinlichkeitsmaße (LSM). Alle Operationen im FTT-Frequenzspektrum. Grundsätlich aber Subtraktion `tonal gleich gesamt minus Rauschen'. Codierung von Phasen für harmonics, deren Selektion über harm. Sieb des pitch estimators.
DR-MCA85
McAulay, R. J., Quatieri, T. F. Mid-rate coding based on a sinusoidal representation of speech. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Tampa, 945-948, 1985. Vorläufer von AS-MCA86a plus Beschreibung eines 8kbps Coders.
DR-MCA87
McAulay, R. J., Quatieri, T. F. Multirate sinusoidal transform coding at 2.4 to 8 kbps. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Dallas, 1645-1648, 1987.
DR-MCA88
McAulay, R. J., Quatieri, T. F. Computationally efficient sine-wave synthesis and its application to sinusoidal transform coding. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 370-373, 1988. Bericht über Verbesserung des Verfahrens nach MCA86a zur Übertragung bei niedrigen Datenraten. Das Problem der Interferenz bei der Dreiecksinterpolation, wenn die Rahmenlänge zu groß ist, wird durch Einschalten eines interpolierten Rahmens unter Beibehaltung einer höheren Rahmenrate entschärft. Das Hörbarwerden von tonalen Störanteilen bei Übertragung von Sprache aus rauschhafter Umgebung wird durch Messung und Übertragung, Rekonstruktion eines Störteppiches unterbunden.
DR-MCA91
McAulay, R. J., Quatieri, T. F. Sine-wave phase coding at low data rates. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Toronto, 577-580, 1991. Es geht darum, eine Phasenheuristik für Sprache einzuführen, um auf eine separate Codierung von Phasen in einem Sinusoidal Coder verzichten zu können (Randomphasen in AS-MCA86a bedeutet Halligkeit). Erwähnung erzielbarer Datenraten zwischen 1,2 und 4,8kbit/s. f-Sliding cutoff-Grenze für random-Phase für Unvoiced-Repräsentation. Darunter linear-Phase (Voicing dependend Phase Model).
DR-MCA95
McAulay, R. J., Quatieri, T. F. Sinusoidal coding. In: Kleijn, W. B., Paliwal, K. K., Hrsg., Speech Coding and Synthesis, 121-173. Elsevier Science B. V., Amsterdam, 1995. Beschreibung des Verfahrens der beiden Autoren vorrangig unter dem Gesichtspunkt der Codierung (s.a. DR-KLE95).
DR-NOL95
Noll, P. Digital audio coding for visual communications. Proc. IEEE, 83(6): 
[1]925-943, 1995. Guter Übersichtsartikel über Audiocodierungen.
DR-ONO88
Ono, S., Ozawa, K. 2.4kbps pitch prediction multipulse speech coding. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 175-178, 1988. Verfahren der Firma NEC, welches durch Pitch-Prediktion im Rahmen eines LPC-Multipulse-Konzepts offenbar gute Sprachqualität erzielt. LITERATURHINWEISE.
DR-PET90
Petersen, H., Feiten, B., Wiglinzki, L. FFT-Quellencodierungsverfahren mit adaptiver Fensterlänge. In: Fortschritte der Akustik - DAGA '90, 971-974, DPG-GmbH, Bad Honnef, 1990. Verbesserung des Transientenverhaltens durch Anpassung der Fensterlänge, so daß Vorechos verschwinden.
DR-PRI87
Princen, J. P., Johnson, A. W., Bradley, A. B. Subband/transform coding using filter bank designs based on time domain aliasing cancellation. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Dallas, 2161-2164, 1987. Vorstellung eines Filterbankverfahrens, welches TDAC ausnutzt, um (theoretisch) perfekte Rekonstruktion zu erreichen. Anwendung in einem Transformations-Coder und Vergleich mit anderen Verfahren (z.B. FDAC). Keine Bezüge zur Wahrnehmung. Verweis auf Ursprungsveröffentlichung AS-PRI86.
DR-REN91
Renner, S. Daten-Diät - Datenreduktion bei digitalisierten Audiosignalen. ELRAD, Heise-Verlag, (4): 77-83, 1991. Allgemeinverständliche Einführung über die aktuellen, konkurrierenden Datenreduktionsverfahren, insbesondere MUSICAM und ASPEC. Verfahrenstechnische Details, z.B. Notwendigkeit einer tonal/geräuschhaft-Unterscheidung bei ASPEC.
DR-SCH79
Schroeder, M. R., Atal, B. S., Hall, J. L. Optimizing digital speech coders by exploiting masking properties of the human ear. J. Acoust. Soc. Am., 66(2): 1647-1652, 1979.
DR-SCH85
Schröder, E. F., Tsiamitros, A., Voessing, W. Vergleich dreier Codecs für die digitale Audio-Übertragung mit hoher Qualität über Kanäle mit geringer Kapazität. In: ITG-Fachtagung `Hörrundfunk', Tagungsband, NTG-Fachbericht Nr. 91, VDE-Verlag, 362-370, 1985. Verglichen wird eine CD-Referenz mit folgende Verfahren: DPCM (Stanford, 176kbit/s), ADPCM (TU Hannover, 176kbit/s), und MSC (Krahé, Duisburg, 132kbit/s). Kritereien: Hörqualität, Sicherungsmöglichkeit gegen Übertragungsfehler. MSC schneidet mit Abstand am besten ab.
DR-SEI88a
Seitzer, D., Brandenburg, K.-H., Kapust, R., Eberlein, E., Gerhäuser, H., Popp, H., Schott, H. Real-time implementation of low complexity adaptive transform coding. In: 84th Conv. of the Audio Eng. Soc., Paris, ???, 1988. Vergleiche DR-BRA88a. Hinweis, daß Einsatz von DCT mit TDAC demnächst 3 statt 3.5bit/Sample ermöglicht. Einsatz von einem DSP32 160ns für Stereo-Encoding oder Decoding erscheint möglich.
DR-SEI88b
Seitzer, F., Brandenburg, K.-H., Kapust, R., Eberlein, E., Gerhäuser, H., Popp, H., Schott, H. Prozessorstrukturen für die Audiosignalverarbeitung als Grundlage für zukünftige Einchip-Lösungen. In: ITG-Fachtagung `Mikroelektronik für die Informationstechnik', VDE-ITG Fachbericht Nr. 103, 83-88, 1988. Kurze allgemeinverständliche Einführung in die Quellencodierung für Audiosignale. Weitschweifige und unergiebige Ausführungen über Prozessoranforderungen, etc.
DR-SOT91
Sottek, R., Caspary, G. Ein adaptives Transformationscodierungsverfahren für digitale Audiosignale auf Basis einer gehörangepaßten Spekralanalyse. In: Fortschritte der Akustik - DAGA '91, 805-808, DPG-GmbH, Bad Honnef, 1991. QMF-Teilbandfilterbank, Frequnzgruppenanpassung, FFTs in Teilbändern und Selektion von Maxima (SP-SOT91), FFT der Teilbandhüllkurven, gleiches Maximaselektionsverfahren für Tieffrequente Anteile der Teilbandhüllkurve.
DR-SPI88
Spikowski, G. SQAM - Eine UER-CD zur subjektiven Qualitätsbeurteilung von Audiosignalen. In: Bericht 15. Tonmeistertagung Mainz, 106-115, 1988. Vorstellung einer Test-CD für Übertragungsverfahren. Weitgehend identisch mit vorher DR-JAK88.
DR-SPO95
Sporer, T., Brandenburg, K.-H. Constraints of filter banks used for perceptual measurement. J. Audio Eng. Soc., 43(3): 107-116, 1995. Zeit- und Frequenzauflösung einiger Filterbänke werden mit Wahrnehmungsanforderungen verglichen. Besonders die Zeitauflösung solcher Messysteme scheint den Autoren unzureichend. Verglichen werden Systeme mit FTT-Filterbank, mit MLT (modulated lapped transform oder auch modified DCT genannt, sehr verbreitet in preceptual audio coding; critical Sampling, aber Fensterumschaltung nötig), mit Terz-Filtern, mit Bark-Filtern nach Kapust und mit near-Bark-Filtern.
DR-STO86
Stoll, G., Theile, G. Neue digitale Tonübertragungsverfahren: Wie erfolgt die Beurteilung der Tonqualität? In: Bericht 14. Tonmeistertagung, 472-493, 1986. Offenbar die erste Veröffentlichung des MASCAM Verfahrens. Vorstellung der theoretischen Konzepte Redundanz, Irrelevanz und Noise-Shaping. Beschreibung der Reduktion des Informationsflusses des MASCAM-Verfahrens in drei Stufen: Quantisierung der einzelnen Kanäle der QMF-Filterbank (16 Bänder im 500Hz-Raster von 0-8kHz, 8 Bänder im 1kHz-Raster von 8-16kHz), Bildung der Mithörschwellen zur Ausnutzung der gegenseitigen Maskierung der Kanäle, Berücksichtigung von Vor- und Nachverdeckung durch Auffrischung der Skalenfaktoren im Abstand 2ms. Schematische Beschreibung von Coder und Decoder. Beispiel eines Tonsignals. Fazit für die klassische Meßtechnik: sie muß die Psychoakustik miteinbeziehen.
DR-STO88
Stoll, G., Theile, G. Terrestrischer Digitaler Hörrundfunk - Optimierung der Quellencodierung im Hinblick auf eine effektive Übertragung durch Berücksichtigung der Gehöreigenschaften. In: Bericht 15. Tonmeistertagung Mainz, 132-147, 1988. Kompakter Abriß der Eigenschaften und Probleme eines digitalen Hörrundfunk-Codecs anhand des MASCAM-Systems. Berührt viele Details.
DR-STO90
Stoll, G., Wiese, D. MUSICAM: Ein Quellencodierverfahren hochqualitativer Tonsignale für universelle Anwendungen im digitalen Audiobereich. In: Manuskript für 16. Tonmeistertagung in Karlsruhe, 1990. Beschreibung MUSICAM, Anwendungsmöglichkeiten, Nachbearbeitungsfähigkeit (Trotz anbahnender MPEG-Standardisierung macht MUSICAM für DAB das Rennen.).
DR-STO92
Stoll, G., Brandenburg, K.-H. Das ISO/MPEG-Audio Codec: Ein generischer Standard für die Codierung von hochqualitativen digitalen Audiosignalen. Manuskript für 9. ITG-Fachtagung `Hörrundfunk' in Mannheim, 1992. Deutschsprachiger Ursprung für DR-BRA94.
DR-THE87
Theile, G., Link, M., Stoll, G. Low-bit rate coding of high quality audio signals. In: 82nd Conv. of the Audio Eng. Soc., London, Preprint 2432 (C-1), 1987. Erste internationale Veröffentlichung des MASCAM-Verfahrens (damals noch MASC). Beinhaltet neben den in DR-STO86 veröffentlichten Fakten noch zusätzlich anwendungsspezifische Erwägungen, z.B. Komplexität, Qualitätsstufen, Kaskadierbarkeit und Tonstudio-Bearbeitungen, Fehlerempfindlichkeit. Auch auf die unzureichende Meßtechnik wird verwiesen.
DR-THE91
Theile, G, Stoll, G., Wiese, D., Link, M. Datenreduktion für hochwertige Audiosignale. In: Fortschritte der Akustik - DAGA '91, 105-120, DPG-GmbH, Bad Honnef, 1991. Vorstellung des MUSICAM-Verfahrens.
DR-TRA88
Trancoso, I. M., Almeida, L. B., Rodrigues, J. S., Marques, J. S., Tribolet, J. M. Harmonic coding - state of the art and future trends. Speech Communication, 7(2): 239-245, 1988. Übersichtspapier über Sinusoidal/Harmonic Coding, der Titel sagt es. Vorstellung eines Harmonic Coders mit 8kbit/s. Einmünden des klassischen Harmonischen Coders nach AS-AL83 zugunsten AS-MCA86a zeichnet sich ab.
DR-TRA90
Trancoso, I. M., Marques, J. S., Ribeiro, C. M. CELP and sinusoidal coders: Two solutions for speech coding at 4.8-9.6 kbps. Speech Communication, 9(5/6): 389-399, 1990. Eine Art Review des State of the Art von CELP- und Sinuston-Codern. Übersichtsartikel, der nicht besonders in die Tiefe geht. Viel wichtige LITERATUR!
DR-TRE82
Tremain, T. E. The government standard linear predictive coding algorithm: LPC-10. Speech Technology, 40-49, April 1982. Detaillierte Beschreibung des LPC-10-Standards.
DR-TRI79
Tribolet, J. M., Crochiere, R. E. Frequency domain coding of speech. IEEE Trans. Acoust., Speech, Signal Processing, 25(5): 512-530, 1979. Vielzitierter Grundlagenartikel, der einerseits als Tutorial die Grundlagen von Subband- und Transformationscodern beinhaltet, andererseits aber einen weiterführenden Beitrag (bzgl. DR-ZEL77) zur Adaptiven Transformationscodierung liefert. Die in DR-ZEL77 angesprochenen Grundlagen der DCT und der Bitzuweisung werden ausführlicher dargestellt. Einige Implementierungen für Sprache werden vorgestellt.
DR-TRI89
Tribolet, J. M. Harmonic coding of speech. ISSE '89 International Symposium on Signals, Systems and Electronics, 1989. UNGELESEN.
DR-VAR88
Vary, P., Hellwig, K., Hofmann, R., Sluyter, R. J., Garland, C., Rosso, M. Speech codec for the european mobile radio system. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 227-230, 1988. Beschreibung GSM-Codec.
DR-WEN94
Chang, W.-W., Wang, L.-W. Multi-sinusoidal excitation model for audio coding. Singapore ICCS '94 Conference Proceedings, p.875-879, vol. 3, 1994. UNGELESEN - gefunden in INSPEC'95.
DR-WON82
Wong, D. Y., Juang, B.-H., Gray, A. H. An 800 bit/s vector quantization LPC vocoder. IEEE Trans. Acoust., Speech, Signal Processing, 30(5): 770-780, 1982. Verweis von DR-CHE93.
DR-ZEL77
Zelinski, R., Noll, P. Adaptive transform coding of speech signals. IEEE Trans. Acoust., Speech, Signal Processing, 25(4): 299-309, 1977. Vielzitierter Grundlagenartikel der ein Verfahren zur Datenreduktion beschreibt. Zwei Hauptaugenmerke in der Theorie: optimale Transformation und optimale Bitverteilung. Erstere ist die Karhunen-Loeve-Transformation, die diskrete Cosinus-Transformation (DCT) stellt aber ein gutes Suboptimum dar. Anwendung von Bergers Rate-Distortion-Theorie. Adaptivität besteht im spektral angepaßtem Bit-Assignment. 12kbit/s als Hörbarkeitsgrenze für Verzerrungen bei Sprache (Telefonkanal?). Vergleich mit anderen Verfahren.

FI---
FILTER
FI-CRY89
Corp., Crystal Semiconductor. Delta sigma A/D conversion technique overview. In: Data Handbook, Kapitel  Application Notes. 1989.
FI-DIS59
Dishal, M. Gaussian response filter design. Electrical Communication, 36(1): 
[1]3-26, 1959. Theorie, Design und Koeffizienten bis 9. Ordnung von Gaussfilter-Näherungen (Pseudo-Gaussfilter).
FI-GRA89
Grant, P. M. Artificial neural network and conventional approaches to filtering and pattern recognition. Electronics & Commun. Eng. J., 225-232, Sept./Oct. 1989. Diskussion von zwei KNN-Ansätzen, assoziativer Speicher und Multilayer-Perzeptron. Anwendung zur Merkmalserkennung im Vergleich zu konventionellen Matched-Filter-Technik. Einsatz nichtlinearer Verarbeitung. Spezielles Beispiel ist der Kanal-Equalizer, der als Perzeptron besser als mit linearen Filtern realisiert werden kann.
FI-HER84
Herpy, M., Berka, J.-C. Aktive RC-Filter. Franzis' Verlag, München, 1984. Buch mit verwendeten Filterkoeffizienten.
FI-HES93
Hess, W. Digitale Filter. Teubner, Stuttgart, 2. Aufl., 1993. Buch seiner Vorlesung `Digitale Filter'.
FI-KOR74
Kormylo, J. J., Jain, V. K. Two-pass recursive digital filter with zero phase shift. IEEE Trans. Acoust., Speech, Signal Processing, 22(10): 384-387, 1974. Rekursive digitale Filterung in zwei Durchläufen, einmal mit Vorwärts-Zeit und einmal mit Rückwärts-Zeit erlaubt Frequenzgangmanipulation völlig ohne Phasenverzerrung. Beispiel EKG-Messung, für deren Auswertung TP-Filterung ab 35Hz ohne Laufzeitverzerrung wünschenswert ist.
FI-MCC73
McClellan, J. H., Parks, T. W., Rabiner, L. R. A computer program for designing optimum FIR linear phase digital filters. IEEE Trans. Audio Electroacoust., 21(6): 506-526, 1973. Universelles FORTRAN-Programm, Klassiker.
FI-MOO86
Moorer, J. A., Berger, M. Linear-phase bandsplitting: Theory and applications. J. Audio Eng. Soc., 34(3): 143-151, 1986. Theorie einer Bandfilterbank ohne Phasenverzerrung. Basiert hauptsächlich auf Portnoffs-SFTF-Theorie, Realisierung über FTT, FIR- und IIR-Filter. Anwendung für Equalizing und Noise Gating bei Filmproduktionen. Konstante B3dB, Gruppierung mehrerer Kanäle um beliebige Filtercharakteristiken zu erhalten. Hinweis, daß zwar frequenzproportionale Güte wünschenswert wäre, aber bisherige Verfahren die Linearphasen-Eigenschaft nicht bieten können.
FI-MOU90
Mourjopoulos, J. N., Kyriakis-Bitzardos, E. D., Goutis, C. E. Theory and real-time implementation of time-varying digital audio filters. J. Audio Eng. Soc., 38(7/8): 523-535, 1990. Analyse und Realisation von rekursiven digitalen Filtern mit zeitveränderlichen Koeffizienten. Bewertung der hörbaren Verzerrungen bei Parametertransitionen mit Hilfe eines Modells der auditorischen Maskierung , basierend auf den für Datenreduktion entwickelten Verfahren, speziell DR-JOH88. Offenbar scheint es für die Transitionsrate ein Optimum zu geben, sie darf nicht zu niedrig ( > 20/s, sonst Sprünge) und nicht zu hoch ( < 100-1000/s, sonst 'spectral splatter') sein. Sinustöne sind am empfindlichsten.
FI-PAL87
Paliwal, K. K., Naik, S. M. Reduced-delay quadrature mirror filter structures for subband coding of speech. IEEE Trans. Signal Processing, 13(1): 71-77, 1987.
FI-PRE82
Preis, D. Phase distorstion and phase equalization in audio signal processing - A tutorial review. J. Audio Eng. Soc., 30(11): 774-794, 1982. Breit angelegtes Tutorial. Theorie und zahlreiche Beispiele aus der Praxis. Besonders interessant: Zusammenstellung von Untersuchungen der Wahrnehmbarkeit von Verzerrungen der Gruppenlaufzeit; Verweis auf Oppenheim und Lim (Proc. IEEE Mai 1981) über den Vergleich der Wichtigkeit von Phase und Betrag bei Bild- und Sprachübertragung. Es scheint dort Phase wichtiger als Betrag.
FI-SAA???
Saal, R. Filterkatalog ??? ???, ???, ??? Standard-Filterkatalog, so wie am Lst. f. EAK.
FI-TIE80
Tietze, U., Schenk, C. Halbleiter-Schaltungstechnik. Springer, Berlin, 5. Aufl., 1980.
FI-WOL78
Wolf, H. Lineare Systeme und Netzwerke. Springer, Berlin, 2. Aufl., 1978.
FI-ZER67
Zerev, A. I. Handbook of Filter Synthesis. J. Wiley & Sons, New York, 1967. Filterbuch, so wie am MMK-Lst.

GW---
PSYCHOAKUSTISCHE GRUNDWAHRNEHMUNG
GW-FAS89
Fastl, H. Pitch strength of pure tones. In: 13th Intern. Conf. on Acoustics, Belgrade, Yugoslavia 1989, 11-14, 1989. Ergebnisse der DA Hilz über die Ausgeprägtheit der Tonhöhe von Sinustönen in Abhängigkeit von Dauer, Pegel und Frequenz.
GW-GRA91
Gralla. Wahrnehmungskriterien bei Mithörschwellenmessungen und deren Simulation in Rechnermodellen. Dissertation, Technische Universität München, 1991.
GW-PLO64
Plomp, R. The ear as frequency analyzer. J. Acoust. Soc. Am., 36(9): 1628-1636, 1964. Es wird die u.a. die Frage aufgeworfen, warum der minimale Frequenzabstand unterscheidbarer Töne deutlich kleiner ist als die Frequenzgruppe.
GW-RAJ74
Raj?an, E. The role of the initial phase angle by pitch perception of short tonal pulses as a function of sound pressure level. Acustica, 30: 270-274, 1974. Bei Anfangsphasenwinkel null keine, dagegen bei 80 Grad bei mittleren Pegeln maximale Tonhöhenerhöhung.
GW-SCH88
Schorer, E. Ein Funktionsschema zur Beschreibung eben wahrnehmbarer Frequenz und Amplitudenänderungen. Dissertation, Technische Universität München, 1988.
GW-TER68a
Terhardt, E. Über ein Äquivalenzgesetz für Intervalle akustischer Empfindungsgrößen. Kybernetik, 5(4): 127-133, 1968. Anhand von AM-Tönen wird für Lautheit, Tonhöhe und Rauhigkeit ein Gesetz äquivalent empfundener Intervalle ermittelt. Es besagt, daß äquivalent empfundene Intervalle die gleiche Anzahl JNDs enthalten.
GW-TER68b
Terhardt, E. Über die durch amplitudenmodulierte Sinustöne hervorgerufene Hörempfindung. Acustica, 20: 210-214, 1968. Grenzen der verschiedenen Hörempfindungen hervorgerufen durch AM-Sinustöne in der Ebene von Träger- und Modulationsfrequenz.
GW-TER68c
Terhardt, E. Über akustische Rauhigkeit und Schwankungsstärke. Acustica, 20: 215-224, 1968. Quantitative Gesetze für die Empfindung der Rauhigkeit und Schwankungsstärke von AM-Sinustönen in Abhängigkeit von Pegel, Modulationsgrad, Modulations- und Trägerfrequenzen.
GW-TER74
Terhardt, E. On the perception of periodic sound fluctuations (roughness). Acustica, 30: 201-213, 1974. Verallgemeinerung der 68er-Arbeiten in Bezug auf Rauhigkeit und Anwendung auf den `Wohlklang' von Musik. Für die Teilrauhigkeiten ist die Hüllkurvenschwankung in den Frequenzgruppen entscheidend, die gesamte Rauhigkeit setzt sich aus diesen zusammen. Vermeidungstrategien für Rauhigkeit in Musik.
GW-ZWI67
Zwicker, E., Feldtkeller, R. Das Ohr als Nachrichtenempfänger. Hirzel, Stuttgart, 2. Aufl., 1967.
GW-ZWI74
Zwicker, E. Die Zeitkonstanten (Grenzdauern) des Gehörs. Zeitschrift für Hörgeräte-Akustik, 13(3): 82-102, 1974. Die Grenzdauer von 200ms ist ungefähr der Wert, innerhalb dessen Reizdarbietungen zu Gesamtempfindungen zusammengefaßt werden können. Bis etwa 20ms kann das Gehör in vollem Maße Schwankungen des Reizes folgen. Die kürzeste Grenzdauer von 2ms gibt die Grenze an, bis zu welcher das Gehör die zeitliche Struktur eines Schalles überhaupt auszuwerten vermag.
GW-ZWI82
Zwicker, E. Psychoakustik. Springer-Verlag, Berlin, 1982. Buch seiner Vorlesung `Psychoakustik'.
GW-ZWI90
Zwicker, E., Fastl, H. Psychoacoustics. Springer-Verlag, Berlin, 1990. letztes Buch von Zwicker, erweiterte Übersetzung von ZWI82.

KW---
HÖHERE KOMPLEXE WAHRNEHMUNG (o. SW)
KW-AUR84
Aures, W. Berechnungsverfahren für den Wohlklang (die sensorische Konsonanz) beliebiger Schallsignale, ein Beitrag zur gehörbezogenen Schallanalyse. Dissertation, Technische Universität München, 1984.
KW-BAU92
Baumann, U. Pitch and onsets as cues for segregation of musical voices.
KW-BAU95
Baumann, U. Ein Verfahren zur Erkennung und Trennung multipler akustischer Objekte. Herbert Utz Verlag Wissenschaft, München, 1995.
KW-BRE85
Bregman, A. S., ??? Spectral integration based on common amplitude modulation. Perception & Psychophysics, 37(5): 483-493, 1985. 1) CF 1500Hz, MF 100Hz; 2) CF 500Hz var., MF 100Hz var. Die Fusion ist am besten, wenn hoher und tiefer komplexer Ton die gleiche Modulationsfrequenz haben, selbst wenn die resultierenden Teiltöne nicht zu einer harmonischen Serie paßten. (Hier fehlt noch etwas ...).
KW-BRE90
Bregman, A. S. Auditory Scene Analysis. Massachusetts Institute of Technology, Cambridge, MA, 1990.
KW-DEU82
Deutsch, D. Grouping mechanisms in music. In: Deutsch, D., Hrsg., The Psychology of Music, 99-133. Academic Press, New York, 1982. Musical channeling: 2-Kanal Hören bei Melodiefolgen und Kanalisierung schneller Einzeltonsequenzen.
KW-DYS84
Dyson, M. C., Watkins, A. J. A figural approach to the role of melodic contour in melody recognition. Perception & Psychophysics, 35(5): 477-488, 1984. Experimente, die spezielle Komponenten einer Melodiekontur, Tonhöhenumkehr und -nichtumkehr betrafen. Zuhörer fanden es leichter, die Melodien zu unterscheiden, wenn Unterschiede bei Konturumkehrungen vorlagen. Die Ergebnisse deuten auf eine Analogie zwischen auditorischer und visueller Wahrnehmung hin: Wenn Melodiekonturen als Serie von Tonhöhen über der Zeit aufgefaßt werden, dann stellen die Nichtumkehrungen Linien und die Umkehrungen die `Ecken' dar, die gewichtiger sind, da sie die Figur umreißen.
KW-GAR86
Gardener, R. B., Darwin, C. J. Grouping of vowel harmonics by frequency modulation. Perception & Psychophysics, 40(3): 183-187, 1986. Grundsätzlich trägt ein verstimmter Teilton weniger zur phonetischen Qualität eines Vokals bei. Die Experimente zeigten, daß FM eines TTs mit anderer Rate oder anderer Phasenlage als die restlichen TT des Vokals keinen Einfluß auf die empfundene Vokalkategory hat. In Übereinstimmung mit anderen Experimenten zeigt dies, daß die Kohärenz der FM nicht zur Gruppierung gleichzeitiger Teiltöne in Sprachkategorien beiträgt.
KW-HAL81
Hall, J. W. III, Peters, R. W. Pitch for nonsimultaneous successive harmonics in quiet and noise. J. Acoust. Soc. Am., 69(2): 509-513, 1981. Die Ergebnisse zeigen, daß in Rauschen die virtuelle Tonhöhe (synthetische Wahrnehmung) und in Ruhe die einzelnen Spektraltonhöhen (analytische Wahrnehmung) gehört werden.
KW-HAW89
Hawkins, S. Reconciling trading relations and acoustic invariance. In: Eurospeech 89, Paris, 682-685, 1989. Unverständlich !?
KW-HEL94
Heldmann, K. Wahrnehmung, gehörgerechte Analyse und Merkmalsextraktion technischer Schalle. Fortschr.-Ber. VDI Reihe 17 Nr. 109, VDI-Verlag, Düsseldorf, 1994.
KW-HER88
Hermes, D. J. Mesurement of pitch by subharmonic summation. J. Acoust. Soc. Am., 83(1): 257-264, 1988. Recheneffizientes Verfahren zur Berechnung der virtuellen Tonhöhe. Nicht so psychoakustisch fundiert wie KW-TER82, aber ausführliche Auseinandersetzung damit. Anwendung auf Sprache und Telefonsprache. Besser als Prinzip des harmonischen Siebs (Duifhus et al. 1982, Goldstein 1973). Verweis auch auf Buch von Hess (1983).
KW-LOR68
Lorenz, K. Gestaltwahrnehmung als Quelle wissenschaftlicher Erkenntnis, 97-147. DTV TB Nr. 499, 5. auflage 1972 Aufl., 1968. Philosophischer Artikel über die Gestaltwahrnehmung, zuerst erschienen in `Zeitschrift für experimentelle und angewandte Psychologie', 4, 1959.
KW-MAR82
Marr, D. Vision. Freeman, San Francisco, 1982. UNGELESEN. Info/Mathe-Bibl. PSY 205f.
KW-MCA82
McAdams, S. The auditory image: A metaphor for musical and psychological research on auditory oranization. In: Crozier, W. R., Chapman, A. A., Hrsg., Cognitive Processes in the Perception of Art, 289-323. Elsevier Publishers B. V. (North Holland), 1984. Breit angelegtes Paper über Objekte, Gruppierung, Streaming etc.
KW-SMI82
Smith, J., Hausfeld, S., Power, R. P., Gorta, A. Ambiguous musical figures and auditory streaming. Perception & Psychophysics, 32(5): 454-464, 1982. Experimente mit Deutsch's musical scale illusion. Ergebnisse unterstützen Bregman's These, daß auditory streaming von einem Wettbewerb unter alternativen Wahrnehmungsorganisationen herrührt. Spricht auch für die Vorstellung, daß es einen allgemeinen Parsing-Mechnismus gibt, der nach Gestalt-Prinzipien arbeitet und streaming anhand vieler Reiz-Dimensionen erlaubt. Zu dessen Funktion werden Vorschläge gemacht.
KW-STO82
Stoll, G. Spectral-pitch pattern: A concept representing the tonal features of sounds. In: Clynes, M., Hrsg., Music, Mind and Brain, The Neuropsychology of Music, 271-278. Plenum Press, Ney York, 1982. Das Spektraltonhöhenmuster enthält die relevante tonale Information eines Klanges und besteht aus den Komponenten, die als individuelle reine Töne gehört werden. Diskussion der Signifikanz, Beispiele Glocken und Vokale, Vergleich von psychoakustischen Daten mit denen des Tonhöhenberechnungsprogramms.
KW-TER70
Terhardt, E. Frequency analysis and periodicity detection in the sensations of roughness and periodicity pitch. In: Plomp, R., Smoorenburg, G. F., Hrsg., Frequency Analysis and Periodicity Detection in Hearing, 278-290. A. W. Sijthoff, Leiden, 1970. Artikel mit Aufzeichnung einer Diskussion zwischen Autor, Zwicker, den Herausgebern und Anderen. Terhardt legt den Grundstein für sein Tonhöhenmodell: Voraussetzung für das Hören von `Periodicity Pitch' eines Residualtons ist die Auflösung von Spektraltonhöhen. Die Untergrenze des Teiltonfrequenzabstands für das Hören von PP und die Untergrenze für Auflösung in SpTh fallen zusammen - PP gibt es nicht.
KW-TER72a
Terhardt, E. Zur Tonhöhenwahrnehmung von Klängen. I. Psychoakustische Grundlagen. Acustica, 26: 173-186, 1972. Grundlagenartikel Tonhöhe (1/2).
KW-TER72b
Terhardt, E. Zur Tonhöhenwahrnehmung von Klängen. II. Ein Funktionsschema. Acustica, 26: 187-199, 1972. Grundlagenartikel Tonhöhe (2/2).
KW-TER79
Terhardt, E. Calculating virtual pitch. Hearing Research, 1: 155-182, 1979. Wichtigster Grundlagenartikel zum Thema Tonhöhe.
KW-TER82
Terhardt, E., Stoll, G., Seewann, M. Algorithm for extraction of pitch and pitch salience from complex tonal signals. J. Acoust. Soc. Am., 71(3): 679-688, 1982. Beschreibung des Tonhöhenberechnungsverfahrens.
KW-TER88
Terhardt, E. Grundlagen der akustischen Kommunikation. Vorlesungsskript WS88/89, Lehrstuhl für Elektroakustik, TU München, 1988.
KW-TER89
Terhardt, E. Warum hören wir Sinustöne? Naturwissenschaften, 76: 496-504, 1989. Populärwissenschaftlicher Rahmen (s.a. AM-TER91). Die reinen Töne sind physikalisch gar nicht da! Teiltöne und Tonhöhenwahrnehmung, virtuelle Tonhöhe, v. Th. als Gestaltmerkmal, die natürlichen Aufgaben sensorischer Systeme, Teiltöne als Primärkonturen, Analogien zwischen Hören und Sehen, Mechanismen und Begleiterscheinungen der Konturierung bei Auge und Ohr, Teiltonanalyse und -synthese von Audiosignalen.
KW-TER90
Terhardt, E. Komplexe Wahrnehmungsleistungen bei Sprache und Musik. Verlängerungsantrag für Teilprojekt 12 im Sonderforschungsbereich `Gehör', Lehstuhl für Elektroakustik, TU München, 1990.
KW-TER91
Terhardt, E. Prinzipien der Aufnahme und Verarbeitung von Information durch das Gehör. In: Fortschritte der Akustik - DAGA '91, 469-472, DPG-GmbH, Bad Honnef, 1991. Rolle der Information in biologisch-sensorischen Systemen, Teilton/Sinussysnthese-Modell; Konturen, Objekte, Trennung Modell der hierarchischen sensorischen Informationsverarbeitung.
KW-WAR95
Wartini, S. Zur Rolle der Spektraltonhöhen und ihrer Akzentuierung bei der Wahrnehmung von Sprache. Fortschr.-Ber. VDI Reihe 10 Nr. 398, VDI-Verlag, Düsseldorf, 1995.

NW---
NICHT STRENG WISSENSCHAFTLICHES
NW-BER88a
Berendt, J.-E. Die Welt in sich aufnehmen - Über das Hören und den neuen Trendt zum Radio. Frankfurter Allgemeine Zeitung, Nr. 134, 11. Jun. 1988, 1988.
NW-BER88b
Berendt, J.-E. Landschaften des Hörens - Murray Schafer: `Klang und Krach' - Eine Kulturgeschichte. vermtl. SZ, Nr. 267, 15. Nov. 1988, S. L15, 1988.
NW-BIN89
Binnig, G. Wer sich isoliert, kann überleben - Die grundlegende Gemeinsamkeit in der Natur: Die Fähigkeit zur Kreativität verbindet alles mit allem. Die Welt, Nr. 303, 30. Dez. 1989, S. 17ff., 1989.
NW-CHE88
Chernikov, A. A., Sagdeev, R. Z., Zaslavsky, G. M. Chaos: How regular can it be? Physics Today, November 1988, S. 27-35, 1988.
NW-DEG91
Degen, R. Zu bedacht entschieden macht oft unzufrieden - Das Reflektieren von Entschlüssen kann in die Irre führen. Süddeutsche Zeitung, Nr. 193, 22. Aug. 1991, S.34, 1991.
NW-FLE90
Fleischer, G. Wenn die Ruhe totgemessen wird - Die herkömmlichen Berechnungsverfahren ignorieren das Menschenrecht auf Lärmpausen. Süddeutsche Zeitung, Nr. 257, 8. Nov. 1990, S. 49, 1990.
NW-HUB91
Hubert, M. Die Stumme Sprache des Raums - Das Gebärden der Gehörlosen erfüllt alle Kriterien eines vollwertigen Kommunikationssystems. Süddeutsche Zeitung, Nr. 187, 14./15. Aug. 1991, S. 42, 1991.
NW-POL90
Polatscheck, K. Rückkehr nur bei Stromausfall - Wie man mit Hilfe der neuesten Computermode der beschwerlichen Wirklichkeit entkommt. Die Zeit, Nr. 43, 19 Okt. 1990, S. 108, 1990.
NW-ROE92
Röthlein, B. Eigentümliche Wellen als Modell - Wie mit der Chaosforschung Bilder gespeichert werden können. vermtl. SZ, 2. Jan. 1992, S. ???, 1991. Es geht um Wavelets.
NW-SCH89a
Schuh, H. Vom permanenten Aufstieg und Niedergang - Führt die mangelnde Beachtung eines `Weltgesetzes' zu Umweltzerstörung, Überbevölkerung und Inflation? Die Zeit, Nr. 42, 13. Okt. 1989, S. 39, 1989.
NW-TER91a
Terhardt, E. Mehr als Schall und Rausch - Schallschwingung und Information. TUM-Sonderreihe Forschung für Bayern, Nr.2, TU München 1991, 1991.

SE---
SPRACHERKENNUNG
SE-ALP89
Alphen, P. van, Pols, L. C. W. A real-time FIR-based filterbank as the acoustic front end of a speech recogniser. In: Eurospeech 89, Paris, 621-624, 1989. FIR-Filterbank mit 15 Kanälen, ca. Frequenzgruppen-proportional, hohe Selektivität. Anwendung zur Spracherkennung.
SE-BLO83
Blomberg, Mats, Carlson, R., Elenius, K., Granström, G. Auditory models and isolated word recognition. Speech Transmission Labs QPSR 4/83, Royal Institute of Technology, Stockholm, 1983. Untersuchung von fünf Gehörmodellen bzgl. ihrer Eignung zur Spracherkennung: BARK, PHON, SONE, PHONTEMP und DOMIN. Alle schneiden s chlechter ab als die FFT alleine, auf der diese Modelle alle aufgesetzt wurden. Interessant ist das DOMIN-Modelle, das den zweiten Platz einnimmt und sehr ähnlich dem TTZM aussieht. Das Modell trägt für ein gehörgerechtes Spektrum die Frequenz gegen die zu dieser Frequenz gehörende dominierende Frequenz auf. In der sogen. Histogrammdarstellung ergibt sich praktisch das TTZM. Das Verfahren des verwendeten Spracherkenners wird beschrieben, ebenso wie die durchgeführten Versuche.
SE-BLO86
Blomberg, M., Carlson, R., Elenius, K., Granström, B., Hunnicutt, S. Some current projects at KTH related to speech recognition. Speech Transmission Labs QPSR 1/86, Royal Institute of Technology, Stockholm, 1986. Offenbar Forschungsbericht der letzten Jahre.
SE-HOE85
Höge, H., Ney, H. Architektur des sprachverstehenden Systems SPICOS. In: Kleinheubacher Tagung , Kleinheubacher Berichte, Band Nr. 29, 29-36, 1985. Vorstellung des SPICOS-Projekts. Ziele und Ansätze. Keine Information zur akustischen Vorverarbeitung.
SE-KLA86
Klatt, D. H. Representation of the first formant in speech recognition and in models of the auditory periphery. In: Proc. of Montreal Symp. on Speech Recognition,, 5-7, 1986. Vergleich von Modellen zur Erkennung der Frequenz F1 (400Hz, B1=50Hz) des 1. Formanten bei veränderlicher Grundfrequenz f0 (133-200Hz). Ein Modell nimmt die stärkste Harmonische als F1 (Chistovich 1971). Ein anderes benutzt ein spektrales Glaettungsfilter, so daß das Maximum der spektralen Hüllkurve als F0-Schätzung dient (Chistovich et al. 1979). Lineare Prädiktion ist eine weitere Methode zur direkten Bestimmung von F0. Alle Modelle leiden unter dem Problem, daß eine Fehlschätzung von mindestens ca. +/-7 % vorkommt, der JND für F1 aber nur +/-3 % (Flanagan 1955) beträgt. Versuche ergaben, daß sich die Vokallautheit nur um 2dB erhöht, wenn die nächsten Harmonischen symmetrisch um F1 mit 8dB niedrigerem Pegel liegen, anstatt n*f0=F1. Diese Tatsache wird zum Problem, wenn in den Modellen Vokalunterschiede durch eine Metrik bewertet werden soll. Ein weiterer Versuch ergab, daß das Gehör die wahre F1 bei Variation von f0 ohne Beeinflussung in Richtung der stärksten Harmonischen findet. Drei Modell-Lösungen werden vorgeschlagen: 1) f0-synchrone Kurzfenster Analyse - hier läßt sich die Vokaltrakt-ÜF direkt schätzen. 2) Auflösung der einzelnen Harmonischen vom peripheren Gehör (mit Hilfe von Pitch-Synchrony-Modellen) und Auswertung durch das zentrale Nervensystem. 3) wie 2), aber ohne ZNS, durch Lernen von Merkmalsvektoren.
SE-MCD89
McDermott, E., Katagiri, S. Shift-invariant, multi-category phoneme recognition using kohonen's lvq2. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Glasgow, 81-84, 1989. Neuronales Netzwerk zur Phonem-Erkennung. 97.7 Prozent Erkennungsrate für japanische Konsonanten, sprecherabhängig.
SE-WAI88
Waibel, A, Hanazawa, T., Hinton, G., Shikano, K., Lang, K. Phoneme recognition: Neural networks vs. hidden markov models. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 107-110, 1988. Vergleich eines Time Delay Neural Network (TDNN) mit Hidden Markov Modell (HMM). Auswertung mit sprecherabhängiger Phonem-Erkennung von B, D und G. Erkennungsrate 98.5 bzw 93.7 Prozent.
SE-WAI89
Waibel, A., Sawai, H., Shikano, H. Consonant recognition by modular construction of large phonemic time-delay neural networks. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Glasgow, 112-115, 1989. Modularer Entwurf von TDNNs, um Komplexitätsexpansion zu verhindern.

SO---
SONSTIGES
SO-BAU90
Baumann, U. Akustische Untersuchungen an einer Kirchenorgel. In: Fortschritte der Akustik - DAGA '90, 541-544, DPG-GmbH, Bad Honnef, 1990. Vorstellung des Analysewerkzeuges, Klangspektren des Rückpositivs, Untersuchung des Einschwingvorgangs mit TTZM (s.a.SO-BAU91).
SO-BAU91a
Baumann, U. Vergleich akustischer Daten einer Barockorgel vor und nach der Restaurierung. In: Fortschritte der Akustik - DAGA '91, 873-876, DPG-GmbH, Bad Honnef, 1991. Archivierung Pfeifenregister vorher und nachher, Intonationsanalyse auf Basis TTZM, Aussagen über historisches Stimmungsbild, Wirkung der Restauration auf Windgeräusche, Klanganalyse.
SO-BER71
Berger, T. Rate Distortion Theory - A Mathematical Basis for Data Compression. Prentice-Hall, 1971. UNGELESEN. Grundlage der Transformationscodierer.
SO-CEL95
C-Quellcode für U.S. Federal Standard 1016 CELP 4,8 kbit/s. ftp://ftp.
[1]super.org/pub/speech/celp-3.2a.tar.Z
im Internet am 26.10.95.
SO-CSA95
Dokumentation ITU-T Standard CS-ACELP 8 kbit/s. ftp://ftp.research.
[1]att.com/dist/g729/g729.ps
im Internet am 24.11.95.
SO-DEL93
Deller, J. R., Proakis, J. G., Hansen, J. H. L. Discrete-time processing of speech signals. MacMillan, 1993. UNGELESEN. Aufstrebendes Standardwerk, Konkurrenz für SO-RAB78.
SO-DEL97
Delphrat, N. Global frequency modulation laws extraction from gabor transform of a signal: A first study of the interacting components case. IEEE Trans. Speech Audio Processing, 5(1): 64-71, 1997. Appliziert ridge-extraction Methode, welche im Gabor-Spektrogramm die Punkte bestimmt, an denen die Analysefrequenz mit der momentanen Phasenänderung übereinstimmt. Gegenüber Maximumdetektion sowie vektoranalytischer Methode nach AM-RIL89 also eine dritte Konturierungsmethode.
SO-ENG88
Engels, E. L., W. Stark, Vogt, L. On the application of an optimal spline sampling theorem. Signal Processing, 14: 225-236, 1988. Vorstellung verschiedener Linearkombinationen von B-Splines, die die sinc-Funktion ablösen können. Vorteil u.a. ist die geringe Anzahl der benötigten Abtastwerte. Erläuterung an Beispielen grafisch und numerisch.
SO-FAN70
Fant, G. Acoustic Theory of Speech Production. Mouton, The Hage, Paris, 2. Aufl., 1970. MMK-Bib: K53.
SO-FEL85
Feldtkeller, M. Fourier-t-Transformation als gehörbezogene Spektralanalyse. Diplomarbeit am Lehrstuhl für Elektroakustik, Technische Universität München, 1985.
SO-FLA72
Flanagan, J. L. Speech Analysis, Synthesis and Perception. Springer-Verlag, Berlin, 2. Aufl., 1972. (seinerzeit?) umfassensdes Buch zum Thema Sprache.
SO-FOR86
Forster, U., Unbehauen, R. Anmerkung zur Ableitungsregel der Laplace-Transformation. ntz-Archiv, 8(7): 173-176, 1986. bissige (!) Kritik an SO-TER86a.
SO-GSM95
C-Quellcode für European GSM-Standard 6.10 Speech Codec 13 kbit/s. ftp:
[1]//ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm/gsm-1.0.7.tar.gz
im Internet am 26.10.95.
SO-HAM90
Hambley, A. R. An introduction to communication systems. Computer Science Press, New York, 1990. Gutes, sehr verständliches Buch der modernen Nachrichtentechnik, ohne übersteigerten Tiefgang, etwa FH-Niveau.
SO-HEIPK
Heinbach, W. Persönliche Kommunikation 1987-1988.
SO-HEL91
Heldmann, K., Keiper, W. Analyse von instationären technischen Geräuschen. In: Fortschritte der Akustik - DAGA '91, 761-764, DPG-GmbH, Bad Honnef, 1991. Vergleich Lautheitsanalyse, FFT, FTT, relativ unkonkret.
SO-HORPK
Horn, T. Persönliche Kommunikation 1994-1996.
SO-HOU85
Houtgast, T., Steeneken, H. J. M. A review of the MTF concept in room acoustics and its use for estimating speech intelligibility in auditoria. J. Acoust. Soc. Am., 77(3): 1069-1077, 1985. Überblick über das Konzepts der Modulations Transfer Funktion und seiner Anwendnung zur Messung der Raumqualität (u.a. RASTI).
SO-LDC95
C-Quellcode ITU-T Standard G728 LD-CELP 16 kbit/s. ftp://svr-ftp.
[1]eng.cam.ac.uk/pub/comp.speech/coding/ldcelp-2.0.tar.gz
im Internet am 31.10.95.
SO-LIN88
Ling, N., Bayoumi, M. A. Multi-dimensional systolic networks for DSP algorithms. In: Intern. Conf. on Acoustics, Speech and Signal Processing, New York, 1922-1925, 1988. Umwandlung von DSP-Algorithmen wie z.B. FFT, FIR-Filter und Faltung in mehrdimensionale, systolische Netzwerke.
SO-LPC95
C-Quellcode für U.S. Federal Standard 1015 LPC-10e 2,4 kbit/s. ftp://
[1]ftp.super.org/pub/speech/lpc-1.0.tar.gz
im Internet am 26.10.95.
SO-MAR82
Marko, H. Methoden der Systemtheorie. Springer-Verlag, Berlin, 2. Aufl., 1982. Buch seiner Vorlesung `Nachrichtentechnik I'.
SO-MEY69
Meyer-Eppler, W. Grundlagen und Anwendungen der Informationstheorie. Springer, 1969. UNGELESEN. Aus DR-FEI89. TUB: 0003/ELT 505L 1298.
SO-MPE95
Shareware Audio-Codec nach ISO-MPEG-2, Layer-III. ftp://ftp.fhg.de
[1]/pub/layer3/l3v200.linux.tar.gz
im Internet am 13.10.95.
SO-NN???
NN??? gelbes Buch über Physiologie des Gehörs ??? ???, ???, ???
SO-OPP89
Oppenheim, A. V., Schafer, R. W. Discrete-Time Signal Processing. Prentice-Hall, 1989. UNGELESEN. Standardwerk der digitalen Signalverarbeitung. TUB: 0002/ELT 803f 89A 2806.
SO-OSH87
O'Shaughnessy, D. Speech Communication. Addison-Wesley, Reading, 1987. Sehr gutes Übersichtsbuch über alle Teilgebiete der Sprachkommunikation.
SO-PAP86
Papoulis, A. Signal Analysis. McGraw-Hill, New York, 3. Aufl., 1986. Systemtheorie in kurzen, knappen Herleitungen. Für Ungeübte nicht zu empfehlen.
SO-PAP91
Papoulis, A. Probability, random variables, and stochastic processes. McGraw-Hill, New York, 3. Aufl., 1991. Das Grundlagenbuch für statistische Systemtheorie, welches mindestens seit 1965 existiert. Formalmathematische Darstellung, sehr ausführlich. TUB: 0002/ELT 802f 91 A 2225.
SO-PAR87
Parsons, T. Voice and speech processing. McGraw-Hill, 1987. UNGELESEN. Standardwerk wie SO-OSH87? TUB: 0001/87 A 31.
SO-RAB78
Rabiner, L. R., Schafer, R. W. Digital Processing of Speech Signals. Prentice-Hall, Englewood Cliffs, NJ, 1978. UNGELESEN. Standardwerk in Gefolge von FLA72. TUB: 0001/79 A 1257.
SO-SCH89
Schlang, M. Ein Verfahren zur automatischen Ermittlung der Sprecherposition bei Freisprechen. ITG-Fachbericht 104, 1989.
SO-SCH89a
Schlang, M. Ein automatisch gestseuertes Mikrofonarray zur Verbesserung des Signal/Störverhältnisses bei Freisprechen. In: Fortschritte der Akustik - DAGA '89, ???, DPG-GmbH, Bad Honnef, 1989. Schlang'sches Mikrofon-Array.
SO-SER96b
Serra, X. Spectral Modeling Synthesis home page. http://www.iua.upf.es/eng/recerca/mit/sms/sms.html im Internet am 13.4.96, 1996. Umfangreiche Doku und Software.
SO-STE82b
Steinbuch, K., Rupprecht, W. Nachrichtentechnik, Band II: Nachrichtenübertragung. Springer, Berlin, 3. Aufl., 1982. Dreibändiges Standardwerk von 1974.
SO-STE97
Stein, L. D. How to Set Up and Maintain a Web Site. Addison Wesley, Reading, 2. Aufl., 1997. Gutes Buch zum Thema Web (Christian Hübner).
SO-TER86a
Terhardt, E. Ableitungsregel der Laplace-Transformation und Anfangswertproblem. ntz-Archiv, 8(2): 39-43, 1986. Kritische Diskussion der Notwendigkeit des Anfangswertes in der Laplace-Transformation.
SO-TER86b
Terhardt, E. Ableitungsregel der Laplace-Transformation: Ableitungsregel fehl am Platze. ntz-Archiv, 8(7): 177-178, 1986. Entgegnung auf SO-FOR86.
SO-TER87
Terhardt, E. Evaluation of linear-system responses by laplace-transformation. critical review and revision of method. Acustica, 64(2): 62-72, 1987. Kritische Diskussion der Notwendigkeit des Anfangswertes in der Laplace-Transformation. Englische Veröffentlichung der Beiträge von SO-TER86a.
SO-TER89
Terhardt, E. Liste der wissenschaftlichen Veröffentlichungen (mit Zusammenfassungen). Interne Liste, Fachgebiet akustische Kommunikation, Lehrstuhl für Elektroakustik, TU München, 1989.
SO-TER92
Terhardt, E. The SPINC function for scaling of frequency in auditory models. Acustica, 77: 40-2, 1992.
SO-VAI93
Vaidyanathan, P. P. Multirate Systems and Filter Banks. Prentice-Hall, Englewood-Cliffs, NJ, 1993. Didaktisch guter Nachfolger von DR-CRO83. TUB: ELT 517f.
SO-WIL96
Wilson, S. G. Digital Modulation and Coding. Prentice-Hall, Englewood-Cliffs, NJ, 1996. Sehr gutes Buch zur Informationstheorie, Quellen- und Kanalcodierung. Niveau der Hagenauer-Vorlesung Informationstheorie und Quellencodierung an der TU München. Viele Beispiele und einleitende Erklärungen. Sehr anspruchsvoll, aber didaktisch hervorragend.
SO-WOL82
Wolf, H. Nachrichtenübertragung. Springer, Berlin, 2. Aufl., 1982. Buch zur gleichnamigen Vorlesung an der Uni Karlsruhe. Stand von 1974.
SO-ZOE96
Zölzer, U. Digitale Audiosignalverarbeitung. Teubner, Stuttgart, 1996. TU-Harburg Dozent. Quantisierung, Delta-Sigma-Wandler, Klangbeeinflussung, Ratenwandlung, Raumsimulation usw. Technik und nicht unanspruchsvolle Theorie. TUB: ELT 523f 96 A 711.
SO-ZWI80
Zwicker, E., Terhardt, E. Analytical expressions for critical band-rate and critical bandwith as a function of frequency. J. Acoust. Soc. Am., 68(5): 1523-1525, 1980.
SO-ZWI84
Zwicker, E., Zollner, M. Elektroakustik. Springer-Verlag, Berlin, 1984. Buch seiner Vorlesung `Elektroakustik'.

SP---
SPEKTRALANALYSE (o. WD)
SP-ADA91
Adams, J. W. A new optimal window. IEEE Trans. Acoust., Speech, Signal Processing, 39(8): 1753-1769, 1991. Vorstellung einer optimalen Fensterfamilie für die DFT. Sie ist optimal in dem Sinne, daß sie bei gegebenen Nebenmaximaabstand die Gesamtenergie der Nebenmaxima minimiert - und umgekehrt (bei etwa fester 3dB- bzw. `Sperr'-Frequenz). Das oft benutzte Hamming-Fenster hat z.B. eine um 5dB höhere Nebenmaximaenergie und erweist sich somit als alles andere als `optimal'. Weiterhin werden die Verfahren Minimax und least squares approximation grundsätzlich für die Anwendung in der Signalverarbeitung in Frage gestellt. LITERATUR, insbes. Geckinili, N. and Yavuz, D. `Some Novel Windows and a Concise Tutorial Comparison of Window Families', ASSP-26, 501-507, Dec. 1978.
SP-ALL77
Allen, J. B., Rabiner, L. R. A unified approach to short-time fourier analysis. Proc. IEEE, 65(11): 1558-1564, 1977.
SP-ALT80
Altes, R. A. Detection, estimation, and classification with spectrograms. J. Acoust. Soc. Am., 67(4): 1232-1246, 1980. Sehr formalmathematisch gehaltenes Paper. Erste Hinweise auf die Möglichkeit der fast vollständigen Rückgewinnung eines analytischen Signals aus seinem Spektrogramm (gleich SFTF-Betragsquadrat). Die fehlende Information betrifft die relative Phasenlage, sie kann wohl durch Verfolgung des Signals an einer Spektralanalysefrequenz vor Betragsbildung gewonnen werden. U.a. wird auch die notwendige Abtastung des Spektrogramms in f- und t-Richtung angesprochen.
SP-AMI90
Amin, M. G. A comparison between two measures of convergence in recursive-window based spectrum estimation. IEEE Trans. Acoust., Speech, Signal Processing, 38(8): 1457-1459, 1990. Für rekursive Spektralschätzung wird die effektive Fensterlänge (EWL) und die least squares inverse filter method (LSIFM) als Konvergenzmaß verwendet. Die EWL ist der Kehrwert der equivalenten Rechteckbandbreite (ERB), die die gleiche Rauschenergie wie das Filter einfängt. Für die LSIFM ist das Kriterium, daß das inverse Filter einen Einheitsimpuls approximieren muß, wenn am Eingang ein Rechteckimpuls der zu spezifizierenden Länge N anliegt (Höhe 1/N). N und die EWL sind beim Filter erster Ordnung identisch. LITERATUR, insbes. Harris, `On the Use of Windows for Harmonic Analysis with the DFT', Proc. IEEE 66, Jan. 1987.
SP-BEH91
Beham, M. An auditorily based spectral transformation of speech signals. In: Eurospeech 91, Genova, 1473-1440, 1991. Ergebnis der an Ruske im SFB abgebenen Fensteruntersuchung. Es wird die FTT mit Grundeigenschaften und Realisierung vorgestellt zusammen mit Fenstern bis dritter Ordnung. Teilweise wörtliche Abschrift aus SS-SCH89b, ohne Verweis!
SP-DEU90
Deutsch, W. A. Von der Irrelevanzschwelle zu Relevanzspektrographie. In: Fortschritte der Akustik - DAGA '90, 699-692, DPG-GmbH, Bad Honnef, 1990. Anwendung von Mithörschwellen definiert durch Schröder's spreading functions auf FFT-Spektren, Syntheseverfahren Phasenvocoder, erzeugt TTZM-ähnliche Spektrogramme, beibehaltung der auditiven Vordergrundinformation bei Erhöhung der Irrelevanzschwellen. Hinweis auf Dissertation Eckel.
SP-FAN50
Fano, R. M. Short-time autocorrelation functions and power spectra. J. Acoust. Soc. Am., 22(5): 546-551, 1950. Anknüpfung an Wiener's Theorem und Erweiterung einer analogen Beziehung zwischen Kurzzeit-Autokorrelation und -Spektrum.
SP-GAB46
Gabor, D. Theory of communication. J. Inst. Elec. Eng., London, 93(III): 
[1] 429-457, Nov. 1946. Begründer Signaldarstellung in der Zeit/Frequenz-Fläche, `Informations-Diagramm' gennannt. Deren eindimensionale Entartung stellt das Zeitsignal bzw. das Fourier-Spektrum dar. Es wird eine Formel für die Signaldarstellung aus `Gauß-Wavelets' angegeben (diskrete Doppelsumme, später in der Lit. als Gabor expansion bezeichnet), aber nur eine iterative Prozedur für die Bestimmung der Koeffizienten. Der umfangmäßig dominierende restliche Teil des papers zielt darauf ab, das Wesen der Information zu beschreiben.
SP-GAM68
Gambardella, G. Time scaling and short-time spectral analysis. J. Acoust. Soc. Am., 44(6): 1745-1747, 1968. Einführung eines Form-Invarianz Kriteriums für die allgemeine Kurzzeit-Spektraltransformation. Während Spektralanalysatoren im allgemeinen das Kriterium nicht erfüllen, wird es ausgerechnet vom Gehör bei Annahme einer frequenzabhängigen (w) Fensterfunktionen der Art ((tw)**2)exp(-tw/2) erfüllt (s.a.SP-GAM71).
SP-GAM71
Gambardella, G. A contribution to the theory of short-time spectral analysis with nonuniform bandwith filters. IEEE Trans. Circuit Theory, 18(4): 455-460, 1971. Einführung der frequenzabhängigen Spektral-Transformation im Sinne FFT (Ref.SP-SCH62), formal-mathematische Ableitung einer Inversionsformel, sehr unhandlich, die die grundsätzliche Invertierbarkeit nachweist. Anpreisung der Forminvarianzeigenschaft (SP-GAM68) für konstant-Q Bandbreite.
SP-GEC78
Geçkinli, N. C., Yavuz, D. Some novel windows and a concise tutorial comparison of window families. IEEE Trans. Acoust., Speech, Signal Processing, 26(6): 501-???, 1978. Vergleich bekannter FFT-Fenster.
SP-HAR78
Harris, F. J. On the use of windows for harmonic analysis with the discrete Fourier transform. Proc. IEEE, 66(1): 51-83, 1987. Das klassische Fenster-Paper der FFT-Gemeinde. Katalog und gründlicher Vergleich der üblichen Fenster mit einer Vielzahl von Gütemaßen, Bildern und Tabellen. Focus auf Erkennung von Harmonischen in Breitbandrauschen und nahen Tönen mit sehr unterschiedlichen Pegeln. Hinweise auf Fehler, die oft bei FTT-Berechnungen gemacht werden.
SP-HLA92
Hlawatsch, F., Boudreaux-Bartels, G. F. Linear and quadratic time-frequency signal representations. IEEE Signal Processing Magazine, 21-67, April 1992. Langer Übersichtsartikel mit Unmengen von Literatur.
SP-HSU77
Hsu, F. M., Giordano, A. A. Line tracking using autoregressive spectral estimates. IEEE Trans. Acoust., Speech, Signal Processing, 25(6): 510-519, 1977. Verfolgung von Spektralkomponenten mit Hilfe von Spektralschätzung. Vergleich von zwei neuen mit älteren Verfahren am Beispiel von FM-Signalen. Anwendungsziel: Doppler-Radar, Underwater Acoustics und Geophysik.
SP-HUG52
Huggins, W. H. A phase principle for complex-frequency analysis and its implications in auditory theory. J. Acoust. Soc. Am., 24(11): 582-589, 1952. Exotisches Verfahren zur Spektralanalyse unter alleiniger Messung der Phasenbeziehungen an den Ausgängen eines Filtersatzes mit leicht gegeneinander verstimmten Einzelpolfiltern. Er ersetzt das TP-Filter im Sonagraphen. Die Filtercharakteristik ist derart, daß die Amplitude des Schreibsignals die Dämpfung eines Pols der VT-Übertragungsfunktion in der Nähe desselben angibt; sie ist erstaunlich schmal. Die so erzeugten `Resonagramme' haben scharfe Formantspuren wie bei einer LPC-Analyse. Die Formantintensität wird aber deswegen nicht wiedergegeben.
SP-IMA86
Imai, M., Inokuchi, S. Frequency identification by complex spectrum. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Tokyo, 117-120, 1986. Verfahren zur genauen Frequenzbestimmung von Teiltönen bei kurzem FFT-Rechteckfenster, auch bei naher Nachbarschaft. Idee: Kehrwert des komplexen Spektrums einer exp(jwt+p)-Schwingung hat (nur?) bei Rechteckfenster, bis auf einen Komplexen phasenabhängigen Faktor exp(-jp), eine frequenzlinearen Verlauf mit interpolierbarem Nulldurchgang bei w. Bei mehreren Teilönen kann der gegenseitige Einfluß herausgerechnet werden, indem sukzessive der stärkste entfernt wird.
SP-JAN91
Janssen. Optimality property of the gaussian window spectrogram. IEEE Trans. Acoust., Speech, Signal Processing, 39(1): 202-204, 1991. Formal-mathematische Herleitung, daß mit Gauß-Fenster gewonnenes Spektrogramm S(f,t) bzgl. des Gütemaßes ((t-tx)**2+(f-fx)**2)S(f,t) integriert über f und t mit (tx,fx) als Schwerpunkt optimal ist.
SP-JON89
Jones, D. L., Parks, T. W. A resolution comparison of several time-frequency representations. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Glasgow, 2222-2225, 1989. Nachweis, daß die SFTF mit signalangepaßtem Fenster besser als die WD, PWD und smoothed-WD abschneidet, wenn es um maximale Auflösung/Trennung zweier Gauß-Peaks in der t/f-Ebene geht. Die PWD ist allerdings besser, wenn Auflösung in einer Dimension zu Gunsten derjenigen in der andern geopfert werden kann.
SP-JON90
Jones, D. L., Parks, T. W. A high resolution data-adaptive time-frequency representation. IEEE Trans. Acoust., Speech, Signal Processing, 38(12): 2127-2135, 1990. Das sehr rechenaufwendige Verfahren basiert auf einer STFT mit Gauß-Fenster, dessen Breite und Chirp-Rate (?) für jeden Punkt der t/f-Ebene nach einem Optimalitätskriterium eingestellt wird. Diese Optimierung gewährleistet eine maximale Trennung und Konzentration von Signalkomponenten. Die Repräsentation ist in diesem Sinne besser als jede andere bisher bekannte. Insbesondere vermeidet sie die Cross-Terme der Wigner-Distribution, auch werden Sweeps gegenüber einer normalen SFTF verlaufsrichtig (unbiased) dargestellt. Der Begriff `Chirp-Rate' bezieht sich wohl auf die Geschwindigkeit einer Art Sweep der Fenstermodulationsfrequenz durch den aktuellen Meßpunkt (t,f). Begründung des Gauß-Fensters mit Gabor (1946), wonach jenes die minimale Zeit/Frequenz-Unschärfe besitzt.
SP-KAT83
Kates, J. M. An auditory spectral analysis model using the chirp z-transform. IEEE Trans. Acoust., Speech, Signal Processing, 31(1): 148-156, 1983. Vorstellung einer Spektralanalyse mit konstanter Bandbreite unterhalb und konstanter Güte oberhalb 500Hz, Bandbreite 1/3-Oktave. Filter n-ter Ordnung, weil physiologisch gerechtfertigt. Realisierung mit der Chirp Z-Transformation, einmal kausal, einmal linearphasig. Spektralbilder von Sprachlauten wie bei FFT, aber Bandbreite zu groß; Sichtbarkeit Zeitkontur. Div. Refs. auf Zwicker und Terhardt.
SP-KAY81
Kay, S. M., Marple, S. L., Jr. Spectrum analysis - a modern perspective. Proc. IEEE, 69(11): 1380-1429, 1981. Umfangreiches Tutorial über die Spektralanalyse und Spektralschätzung; Gewicht auf Techniken, die in den letzten 20 Jahren entwickelt wurden (vergl. SP-ROB82).
SP-KLE77
Klemm, R. Zur Rekursiven Berechnung der diskreten Fourier-Transformation. ntz, 30(2): 159, 1977. Implementierung einer selbst-regenerierenden rekursiven diskreten Fourier-Transformation, basierend auf dem RDFT-Prinzip nach Halberstein 1966. Dieses hatte die unangenehme Eigenschaft, Rechenungenauigkeiten zu akkumulieren. Somit kann offenbar der Rechenaufwand der FFT unterboten werden.
SP-KOD78
Kodera, K., Gendrin, R., Villedary, C. de. Analysis of time-varying signals with small bt values. IEEE Trans. Acoust., Speech, Signal Processing, 26(1): 64-76, 1978. Analyse von Multi-Komponenten Signalen mit dem Ziel, diese exakt und getrennt in t und f zu lokalisieren. Beschreibung von drei Methoden und Entwicklung einer vierten, Beurteilung Auflösungsvermögen, sehr kompliziert. Letztere Methode (MMWM - modified moving window method) basiert darauf, daß das STFT-Intensitätsspektrum |s(t0,f0)|**2 durch Zuhilfenahme der Phase an eine Stelle (tg,fi) umkartiert wird. Umkartierungsvorschrift sieht recht einfach aus.
SP-MAK75
Makhoul, J. Linear prediction - a tutorial review. Proc. IEEE, 63(4): 561-580, 1975.
SP-MAR87
Marple, S. L. Digital spectral analysis with applications. TUM-Bib 0001/87 A 9080, 1987. Buch mit Diskette.
SP-MIT88
Mita, M. Adaptive analysis of harmonic oscillation for biological signals. Med. & Biol. Eng. & Comput., 26: 379-382, 1988. Nicht verstanden.
SP-MUM90
Schlang, M., Mummert, M. Die Bedeutung der Fensterfunktion für die Fourier-t-Transformation als gehörgerechte Spektralanalyse. In: Fortschritte der Akustik - DAGA '90, 1043-1046, DPG-GmbH, Bad Honnef, 1990. TTZM-Verfahren als Testsystem, Kriterien für geeignete Fensterfunktionen, Fenster zweiter Ordnung, Realiserung als zeitdiskretes System.
SP-NII86
Niihara, T., Inokuchi, S. Transcription of sung song. In: Intern. Conf. on Acoustics, Speech and Signal Processing, Tokyo, 1277-1280, 1986. Anwendung u.a. eines Verfahrens zur Frequenzbestimmung von Teiltönen (Ref. SP-IMA86). Es entsteht eine Art TTZM. Zusammen mit anderen Verfahrensteilen wird eine automatische Transskription von Gesangsstücken erreicht.
SP-NUT80
Nutall, H. H. Some windows with very good sidelobe behaviour. IEEE Trans. Acoust., Speech, Signal Processing, 29(1): 84, 1980. Polynom-definierte Fensterfunktionen für FTT, Kopie BESORGEN!
SP-ONE88
O'Neil, M. A. Faster than fast fourier. BYTE, April: 293-300, 1988. Implementation und Nutzung der Fast Hartley Transformation zur Spektralanalyse und schnellen Faltung.
SP-OWE88
Owens, F. J., Murphy, M. S. A short-time Fourier transform. Signal Processing, 14(1): 3-10, 1988. Definition einer Spektraltransformation, die bis auf die Frequenzgruppenanpassung der FTT mit Fenster n-ter Ordnung entspricht. Eine Digitalfilterrealiserung wird vorgeschlagen und für Sprachsignalspektren bei breitbandiger Analyse mit der FFT verglichen. Fazit: 'FTT' besser, weil flexiblere Parameterwahl und keine spektralen Nebenmaxima.
SP-POR81a
Portnoff, M. R. Short-time Fourier analysis of sampled speech. IEEE Trans. Acoust., Speech, Signal Processing, 29(3): 364-373, 1981. Speech Production Model: Repräsentation Sprachsignal durch zeitvariantes (Vokaltrakt)-Filter, beaufschlagt mit Pulsfolge oder weissem Rauschen. Ausführliche formal-mathematische Darstellung der Anwendung der Kurzzeit-Spektralanalyse auf dieses Modell. Grundlage für Verfahren zur Modifikation von Zeit- und Frequenzachse (Ref.SS-POR81b). Problematisch: Annahme einer Quasistationarität.
SP-PUE91
Püschel, D. Implementation einer gehörähnlichen Analyse zeitlicher Modulationen in Frequenzbändern. In: Fortschritte der Akustik - DAGA '91, 745-748, DPG-GmbH, Bad Honnef, 1991. FFT, Herausformen beliebige Bänder aus Spektrum, Heruntermischen ins Basisband, kplx. Overlapp-Add im Zeitbereich, prinzipielle Umkehrbarkeit.
SP-RIO91
Rioul, O., Vetterli, M. Wavelets and signal processing. IEEE Signal Processing Magazine, 14-37, Oct. 1991. Sehr verständlicher, einleitender Artikel über die Wavelet-Theorie mit Unmengen von Literatur.
SP-ROB82
Robinson, E. A. A historical perspective of spectrum estimation. Proc. IEEE, 70(9): 885-902, 1982. Umfangreiches Tutorial über die geschichtliche Entwicklung der Spektralschätzung.
SP-SCH62
Schroeder, M. R., Atal, B. S. Generalized short-time power spectra and autocorrelation functions. J. Acoust. Soc. Am., 34(11): 1679-1683, 1962. Diskussion verschiedener Kurzzeitrepräsentationen und ihrer Realisierungen, 'FTT' kommt vor. Bezug auf SP-FAN50.
SP-SOT90a
Sottek, R. Ein Verfahren zur gehörrichtigen Spektralanalyse. In: Fortschritte der Akustik - DAGA '90, 779-782, DPG-GmbH, Bad Honnef, 1990. Realisierung einer Oktavfilterstruktur, die auf geschachtelten FFTs mit vorgeschalteter Abtastratenhalbierung basiert. Synthese analog.
SP-SOT90b
Sottek, R., Illgner, K., Aach, T. An efficient approach to extrapolation and spectral analysis of discrete signals. In: 7. Achener Symposium für Signaltheorie - ASST '90, 103-108, Springer-Verlag, Berlin Heidelberg, 1990. Formal-mathematische Herleitung der Sottek'schen hochauflösenden Spektralschätzung (s.a. SP-SOT91).
SP-SOT91a
Sottek, R. Kombination einer hochauflösenden Spektralschätzung mit einer Analyse der Enhüllenden der Zeitfunktion. In: Fortschritte der Akustik - DAGA '91, 801-804, DPG-GmbH, Bad Honnef, 1991. FFT; Selektion stärksten Maximums, Entfaltung mit der Fensterfunktion, nächstes Maximum; Hüllkurvenextrapolation.
SP-SRE82
Sreenivas, T. V., Rao, P. V. S. Analysis of non-stationary voiced segments in speech signals. In: Carlson, R., Granström, B., Hrsg., The Representation of Speech in the Peripheral Auditory System, 235-240. Elsevier Biomedical Press, Amsterdam, 1982. Belege dafür, daß eine Repräsentation des Sprachsignals durch Formanten, Pitch etc. - also eine quasistationäre Betrachtung - nicht ausreichend ist, um einer gehöradäquaten Behandlung gerecht zu werden. Experimentelle Hinweise auf Zeitkonturen.
SP-TER85
Terhardt, E. Fourier transformation of time signals: Conceptual revision. Acustica, 57: 242-256, 1985. Einführung eines neuen Konzepts als Grundlage für Fourier-Transformation zum Zwecke der Spektralanalyse von Zeitsignalen. Einführung der FTT, Grundlegende Eigenschaften des exp(-at) Fensters, numerische Auswertung als Rekursionsformel.
SP-WIE89
Wietzke, J. Quadraturüberlagerung für universelle digitale Langwellenempfänger. Design & Elektronik, Markt & Technik Verlag, (19): 136-140, 1989. Das in der Kurzzeit-Spektralanalyse verwendete Grundprinzip nennt sich Quadraturüberlagerung in der Nachrichtentechnik und ist dort ein alter Hut.

SS---
SPRECHERTREN./STÖRBEF./SIGNALMODIF.
SS-ALL77
Allen, J. B. Short term spectral analysis, synthesis, and modification by discrete fourier transform. IEEE Trans. Acoust., Speech, Signal Processing, 25(3): 235-238, 1977. Grundsätzliche Überlegungen zur Anwendung von Analyse, Synthese und zeitvarianter Filterung mit dem zeitvarianten Kurzzeitspektrum. Aufschlußreich und verständlich. Wahl der Abtastintervalle in t und f. Overlapp-Add-Grundlagen. Literaturhinweise auf Phase-Vocoder.
SS-COX83
Cox, R. V., Crochiere, R. E., Johnston, J. D. Real-time implementation of time domain harmonic scaling of speech for rate modification and coding. IEEE Trans. Acoust., Speech, Signal Processing, 31(1): 258-272, 1983. Implementierungs-orientierter Artikel für ein Zeitbereichs-Verfahren zur Kompression und Expansion der Zeitachse. Das zugrunde liegende TDHS-Verfahren nach Malah (1979) wird jedoch erläutert. Es wird arbeitet Pitch-orientiert und benötigt einen ensprechenden Erkenner.
SS-DEU88
Deuter, K. Optimierung von Musik- und Sprachübertragung bei veränderlichem Störschall am Beispiel des Kraftfahrzeugs. Dissertation, Technische Universität München, 1988.
SS-KAT94
Kates, J. M. Speech enhancement based on a sinusoidal model. J. Speech Hear. Res., 37: 449-464, April 1994. Benutzt das Modell von McAulay und Quatieri.
SS-PAR76
Parsons, T. W. Separation of speech from interfering speech by means of harmonic selection. J. Acoust. Soc. Am., 60(4): 911-918, 1976. Stimmtrennverfahren für vokalische Sprache. Analyse/Synthese-Verfahren durch Vorschub-FFT, Verarbeitung nur der Spektralmaxima , ca. 50ms Hanning-Fenster. Aus Spektralmaxima wird zeitschnittweise Grundtonhöhe bestimmt, als Verfahren kommt das Schroeder-Histogramm (JASA 1986) zur Anwendung. Dieses wertet das Histogramm der Subharmonischen aus. Grundtonhöhen-Kandidaten für die beteiligten Sprecher werden extrahiert. Ein zeitliche Verfolgung der Grundtonspuren mittels Prediktion sichert die Zuordung zu den Sprechern. Die Grundtonhöhe selektiert die zugehörigen Harmonischen. Vorkehrungen für Behandlung von Durchkreuzung von Harmonischen und Grundtonspur. Scheint recht gut zu funktionieren.
SS-POR81b
Portnoff, M. R. Time-scale modification of speech based on short-time fourier analysis. IEEE Trans. Acoust., Speech, Signal Processing, 29(3): 374-390, 1981. Umfangreicher und äußerst formal-mathematisch angelegter Aufsatz. Drei Hauptsektionen, in deren erster ein Speech-Poduction Modell als Grundlage formuliert wird. Dann werden die Grundlagen zur Implementation mit Hilfe der STFT (Short-Time-Fourier-Transform) erarbeitet und schließlich ein qualitativ hochwertiges Verfahren zur Zeitachsenveränderung im Bereich 1:3 bis 4:1 vorgestellt. Grundansatz scheint das Phasen-Vocoder-Prinzip zu sein. Die einzelnen Kanalphasen werden beschleunigt oder verlangsamt und der Synthese-Overlapp wird geändert, während die Amplitude gleich bleibt. Weitere Grundlagen in SP-POR81a.
SS-QUA86a
Quatieri, T. F., McAulay, R. J. Speech transformations based on a sinusoidal representation. IEEE Trans. Acoust., Speech, Signal Processing, 34(4): 1449-1464, 1986. Anwendung des in AS-MCA86a vorgestellten Verfahrens. Erweiterung dadurch, das durch homomorphe Entfaltung tatsächlich die Beiträge zur Amplitude und Phase von Vokaltrakt und Anregung getrennt werden. Dies ermöglicht, neben trivialen Veränderungen von Zeit- und Frequenzmaßstab, eine Pitch-Modifikation, die die Vokaltrakt-Hüllkurve unbeeinflußt läßt. Die Qualität des letztgenannten Verfahrens wird nicht angegeben - sie scheint nicht so gut zu sein, denn die Entfaltung im Hinblick auf die Phase wird problematisch dargestellt.
SS-QUA91
Quatieri, T. F., McAulay, R. J. Peak-to-RMS reduction of speech based on a sinusoidal model. IEEE Trans. Signal Processing, 39(2): 273-288, 1991. Anwendung des Verfahrens nach AS-MCA86a zur Reduktion des Crest-Faktors.
SS-QUA92
Quariteri, T. F., McAulay, R. J. Shape invariant time-scale and pitch modification of speech. IEEE Trans. Signal Processing, 40(3): 497-510, 1992. Verbesserung von SS-QUA86.
SS-SCH89b
Schlang, M. An auditory based approach for echo compensation with modulation filtering. In: Eurospeech 89, Paris, 661-664, 1989. Erstmalige Beschreibung der FTT zweiter Ordnung, Theorie und Rekursionsschema. Anriß des TTZM-Verfahrens und kurze Beschreibung des Schlang'schen Modulationsfilter-TTZM-Verfahrens.
SS-SCH91
Schlang, M. Methoden zur Störschallunterdrückung bei ortsgebundener Spracheingabe in Räumen. Dissertation, Technische Universität München, 1991.
SS-STR87
Strawn, J. Editing time-varying spectra. J. Audio Eng. Soc., 35(5): 337-352, 1987. Beschreibung der Möglichkeiten eines universellen Spektral-Editors, basierend auf dem Phasen-Vocoder Prinzip. Wenig wissenschaftlich.
SS-STU88
Stubbs, R. J., Summerfield, Q. Evaluation of two voice-separation algorithm using normal-hearing and hearing-impaired listeners. J. Acoust. Soc. Am., 84(4): 1236-1249, 1988. Auswertung zweier Stimmtrennungs-Verfahren mit sehr unkomplizierten Testschallen. Das erste basiert auf Harmonischer Entfaltung mittels Cepstrum, das zweite ist das Verfahren nach Parsons (SS-PAR76), das besser abschneidet. Beide Verfahren verbessern bei den verwendeten Testschallen die Erkennung durch den Zuhörer. Die Anwendbarkeit ist trotzdem noch sehr eingeschränkt. Im Appendix Beschreibung eines Verfahrens mit logarithmischem Array zur Bestimmung des Schroeder-Histogramms.

SW---
SPRACHWAHRNEHMUNG
SW-BLA82
Bladon, A. Arguments against formants in the auditory representation of speech. In: Carlson, R., Granström, B., Hrsg., The Representation of Speech in the Peripheral Auditory System, 95-102. Elsevier Biomedical Press, Amsterdam, 1982. Votum für eine geeignete Spektrale Hüllkurve anstatt von Formanten als gehöradäquate Repräsentation von Sprache. Es werden drei Argumente gegen Formanten angeführt. Erstens ist die durch Formanten erzwungene Datenreduktion zu groß: Z.B. Nasale und Laterale werden schlecht durch Formanten repräsentiert, es geht zuviel gehörrelevante Information verloren. Formanten sind zweitens zu schlecht determiniert: Letzlich ist die Prognose für Formanterkennungsalgorithmen viel schlechter als meist behauptet, denn die meßbaren Formanten unterscheiden sich in komplexer Weise von einer hypothetischen `Formant'-Empfindung. Drittens sind Formanten nicht gehöradaequat: Die wahrgenommenen Vokaldistanzen können nicht durch das Formantkonzept erklärt werden.
SW-DAR85
Darwin, C. J., Gardner, R. B. Which harmonics contribute to the estimation of first formant frequency. Speech Communication, 4: 231-253, 1985. Das Gehör kann in der Gegend des ersten Formanten einzelne Harmonische auflösen. Bisherige Untersuchungen ergaben zunächst, daß nur die stärkste Harmonische wichtig ist (Muschnikov und Chistovich, 1972). Später fanden Carlson, Fant und Grantström (1975) heraus, daß eine Gewichtung der stärksten beiden Harmonischen in der Lautheitsebene die Phonemgrenzen besser beschreibt als eine oder drei. Das Ergebnis der vorliegenden Untersuchung zeigt dagegen, daß auch weiter abliegende Harmonische zur Einschätzung der Lage des ersten Formanten beitragen. Wichtig ist auch, daß nicht bloß das Spektrum insgesamt gewichtet wird, sondern zunächst eine Quellzuordnung vorgenommen wird.
SW-DAT89
Datscheweit, W. Untersuchung zur Wahrnehmung von stimmhaften Plosivlauten. Acustica, 69: 17-21, 1989. Untersuchung der Wahrnehmung von VCV-Kombinationen mit den stimmhaften Vokalen /b/,/d/ und /g/. Verschlußpausenlänge, Locus des zweiten Formanten des benachbarten Vokals und Burstlänge wurden variiert. Die ersten beiden Parameter erweisen sich gegenüber der Burstlänge als wichtig. Allerdings wird die Ausgeprägtheit durch Veränderung eines Parameters alleine nicht entscheidend vermindert. LITERATURHINWEIS: Bei den stimmlosen Plosiven /t/ und /k/ ist nach Seck (Acoustica 65, 181-193, 1988) der Burst der entscheidende Parameter !
SW-DAT90
Datscheweit, W. ??? Vortrag im Seminar `Akustische Kommunikation', Datum ???, Lehrstuhl für Elektroakustik, TU München, 1990. Es geht etwa um die Klassifizierung von Konsonanten.
SW-FUN87
Funada, T. A method for the extraction of spectral peaks and its aplication to fundamental frequency estimation of speech signals. Signal Processing, 13: 15-28, 1987. Verfahren zur Grundfrequenzbestimmung f0 von Sprache. Es bestimmt letztlich die Teiltonlinie der Grundfrequenz, funktioniert also nur, wenn diese auch vorhanden ist (Telefonsprache!). Interessant ist die starke Ähnlichkeit mit dem der FTT und dem TTZM-Verfahren! Es wird nämlich eine Spektralanalyse mit einem Fenster zweiter Ordnung durchgeführt (früher 1. Ordnung). Allerdings wird wohl nur ein Kanal in der Nähe von f0 gerechnet; durch Bildung der 1. und 2. Ableitung über der Frequenz mittels eines analytischen Ausdrucks kann per Newton-Interpolation der Ort des nächsten Spektralmaximus bestimmt werden, also f0. So kommt man der Teiltonlinie von f0 auf die Spur. Verfahren wird noch von einem voiced/unvoiced-Detektor beaufsichtigt. Im Vergleich mit anderen Methoden wie Cepstrum und Autokorrelation anhand japanischer Sprache schneidet es gut ab.
SW-HEI85
Heinbach, W. Rhythmus von Sprache: Untersuchung methodischer Einflüsse. In: Fortschritte der Akustik - DAGA '85, ???, DPG-GmbH, Bad Honnef, 1985. Bei der Messung des Rhythmus von kurzen Sprachschallen weist die Methode des Mittastens gegenüber der des Nachtastens die doppelte Meßgenauigkeit auf. Bei Verwendung eines Piezowandlers statt einer Morsetaste treten die relativen Maxima um 40ms verzögert auf. In der relativen Höhe der Maxima spiegeln sich die Aktzente wider.
SW-KEU89
ter Keurs, M., Plomp, R., Festen, J. Effects of spectral smearing on speech reception. In: Eurospeech 89, Paris, 251-253, 1989. Tagungsversion von SW-KEU92. Untersuchung über die Auswirkung der Glättung der spektralen Hüllkurve auf die Sprachaufnehmbarkeit (wohl Sprachverständlichkeit, s.u.). Im Rahmen eines FFT-Overlapp-Add-Verfahrens wurde die Hüllkurve unter Beibehaltung von Frequenzen und Phasen der Teiltöne modifiziert. Dazu wurde mit einer Gauß-Kurve gefaltet, dessen Breite durch die sog. effektive Rechteckbandbreite (ERB) angegeben wird. Die ERB variierte von 1/8, 1/4, 1/2, 1, 2 bis 4 Oktaven. Die Sprachverständlichkeit wurde durch Messung der Speech-Reception-Threshhold (SRT) bestimmt. Hierbei wird in Weißem Rauschen der S/N ermittelt, bei der 50 % der Testsätze ohne Fehler verstanden werden. Ergebnis ist, daß bei ERBs zwischen 1/4 und 1/2 Oktave die SRT anzusteigen beginnt. Dieser Bereich entspricht etwa der Breite der Frequenzgruppen ab 500Hz (Terz). Verweis auf einzig vergleichbare Studie: Celmer und Bienvenue (1987).
SW-KEU92
ter Keurs, M., Festen, J. M., Plomp, R. Effect of spectral envelope smearing on speech reception.I. J. Acoust. Soc. Am., 91(5): 2872-???, 1992. JASA-Version der Ergebnisse aus SW-KEU89. Sprachverständlichkeit sinkt in dem Moment, wo die spektrale Glättung (Gauß-Kernel) breiter als die Frequenzgruppenbreite wird.
SW-LAP89
Laprie, Y. Formant tracking adapted to acoustic-phonetic decoding. In: Eurospeech 89, Paris, 669-672, 1989. Beschreibung eines Linienverfolgungsverfahren für Formanten in der f/t-Ebene. Es benutzt Techniken der Bildverarbeitung und geometrische Argumentation (LITERATUR!). Das Eingangssignal stammt von LPC- oder Cepstrum-Methode zur Formantengewinnung. Zuerst werden Linien lokal zusammenverbunden, dann lokale Löcher beseitigt, Aufspaltungen aufgehoben, vereinfachende Liniensegmente gefunden usw. Das Verfahren stellt eine effiziente Alternative zu Formant-Trackern auf Basis von Markov-Modellen dar.
SW-MEY57
Meyer-Eppler, W. Realization of prosodic features in whispered speech. J. Acoust. Soc. Am., 29(1): 104-106, 1957. Diese Untersuchung zeigt, daß Änderungen der Tonhöhe von normaler Sprache bei geflüsterter Sprache durch Verschiebungen von einigen Formantorten und zusätzlichem Rauschen zwischen höheren Formanten dargestellt werden.
SW-MIL50
Miller, G. A., R., Licklider J. C. The intelligibility of interrupted speech. J. Acoust. Soc. Am., 22(2): 167-???, 1950. Pioniermessungen auf diesem Gebiet. Unterbrechungen durch Rauschen scheinen auf den ersten Blick weniger als Unterbrechungen durch Stille die Verständlichkeit zu beeinflussen. Die objektiven Messungen der Verständlichkeit beweisen dies jedoch nicht. Keine Stützung des `Continuity-Effekts'. Siehe aber SW-VER83.
SW-POL85
Pols, L. C. W., Schouten, M. E. H. Perception of Tone, Band and Formant Sweeps. In: Workshop `The Psychophysics of Speech Perception', ???, 1985. Untersuchung von Sweeps hinsichtlich up/down-Identifikation und Sprachklang.
SW-PSP89
Workshop: `The Psychophysics of Speech Perception', 1989. Sammlung der Abstracts.
SW-SCH89
Schwartz, J. L., Escudier, P. A strong evidence for the existence of a large-scale integrated spectral representation in vowel perception. Speech Communication, 8: 235-259, 1989. Logisch sehr komplizierter Artikel über Experimente, die nahelegen, daß zwischen peripherer und phonetischer Verarbeitung eine grobspektrale Hüllkurve als Repräsentation zur Vokalerkennung existiert. Dies wurde von Chistovich (1979) gefordert.
SW-SON89
Son, J. J. H. van, Pols, L. C. W. Comparing formant movements in fast and normal rate speech. In: Eurospeech 89, Paris, 665-668, 1989. Es wird gezeigt, daß Vokale in schnell gesprochene Sprache keine erhöhte Koartikulation unterliegen müssen (Lindblom 1963). Zur Auswertung wurde eine LPC-Formantanalyse nach dem Split-Levinson-Verfahren durchgeführt, welche kontinuierliche Formantspuren liefert.
SW-SOT86
Sotscheck, J. Sprachgüteuntersuchungen an einem Sprachsynthetisator mittels Reimtest-Verständlichkeitsmessungen. In: Proc. of 6. FASE, Sopron, Hungary, ???, 1986. Ergebnis: Die Verständlichkeit sagt noch lange nichts über die Güte aus.
SW-VER83
Verschuure, J., Brocaar, M. P. Intelligibility of interrupted meaningful and nonsense speech with and without intervening noise. Perception & Psychophysics, 33(3): 232-240, 1983. Eindeutiger Beweis für den Continuity Effekt. Folgerung: Es gibt einen Interpolationsmechnismus in der Wahrnehmung, der mit unterbrochene Sprache teilweise ersetzen kann, sofern die Lücken mit Rauschen - nicht aber mit Stille ausgefüllt sind. Verbesserbarkeit der Verständlichkeit durch Rauschen verhält sich umgekehrt zur Redundanz im Sprachmuster.

WD---
WIGNER-DISTRIBUTION
WD-ALL88
Allard, J. F., Valiere, R., J. C. ans Bourdier. Broadband signal analysis with the smoothed pseudo-wigner-distribution. J. Acoust. Soc. Am., 83(3): 1041-1044, 1988. Durch zeitliche Glättung der Pseudo-Wigner-Distribution werden bei der PLWD die Interfrenzterme reduziert (vergl. WD-ZHA88). Das Dilemma der gleichzeitigen Zeit-Frequenz-Auflösung bleibt aber bestehen. Wenn das t-Glättungsfenster klein ist, ist zwar die Zeitauflösung gut, aber bei komplexen Tönen gibt es Interferenzen. Macht man das Fenster groß, entspricht die PLWD etwa der SFTF. Offenbar ist es günstig, schon ein a-priori-Wissen von den Frequenzkomponenten zu haben, die Interferenzen klein halten zu können.
WD-ALL???
Allard, J. F., Valiere, J. C., Bourdier, R. Breitbandige Signalanalyse durch die geglättete, Wigner-Ville'sche Pseudo-Verteilung. In: DAGA???, ???, ??? Vorgeschmack auf WD-ALL88.
WD-BOA88
Boashash, B. Note on the use of the wigner distribution for time-frequency signal analysis. IEEE Trans. Acoust., Speech, Signal Processing, 36(9): 1518-1521, 1988. Verbesserung der WD-Ergebnisse durch Rückgriff auf das analytische Signal. Das bedeutet Rückkehr von der WD auf die sog. Wigner-Ville-Distribution (WVD). Der Vorteil liegt darin, daß keine niederfrequenten Artefakte (Cross-Terms zwischen pos. und neg. Frequenzseite) entstehen. Außerdem gibt es bei der Diskretisierung kein Aliasing (normalerweise muß bei der WD mit 4*fg gesampelt werden). Jede andere Zeit-Frequenz-Distribution kann auf der WVD aufgebaut werden.
WD-CLA80a
Claasen, T. A. C. M., Mecklenbräuker, W. F. G. The wigner distribution - a tool for time-frequency signal analysis, part I. Philips J. Research, 35(3): 217-250, 1980. Artikelserie und Tutorial zur Vorstellung der Wigner Distribution (WD). Die WD wurde von Wigner (1932) vorgestellt und von Ville (1948) wiederentdeckt. Eine mathematische Grundlage wurde von de Brujin (1973) geliefert. Der Witz der WD ist, daß durch Zulassung `negativer Energie' das Heisenberg-Prinzip umschifft wird. Part I: Continous-Time Signals. Mathematische Grundlagen der WD: WD von zeitkontinuierlichen Signalen; Beispiele; Wirkung linearer Operationen; WD analytischer Signale; globale und lokale Momente der WD; WD von bandbegrenzten Funktionen.
WD-CLA80b
Claasen, T. A. C. M., Mecklenbräuker, W. F. G. The wigner distribution - a tool for time-frequency signal analysis, part II. Philips J. Research, 35(4/5): 277-300, 1980. Part II: Discrete-Time Signals. Diskretisierung der WD. Grundproblem hierbei ist, daß Aliasing stattfindet, wenn das Signal nicht auf fs/4 bandbegrenzt oder nicht analytisch ist. WD von zeitdiskreten Signalen; Beispiele; WD von analytischen Signalen; globale und lokale Momente; WD von zeitbegrenzten Signalen.
WD-CLA80c
Claasen, T. A. C. M., Mecklenbräuker, W. F. G. The wigner distribution - a tool for time-frequency signal analysis, part III. Philips J. Research, 35(6): 373-389, 1980. Part III: Relations with Other Time-Frequency Signal Transformations. Die WD wird als Grundlage einer verallgemeinerten Zeit-Frequenz-Transformation eingeführt, die von Cohen (1966), offenbar ohne bezug zur WD aufgestellt wurde. Hierbei wird die WD zweidimensional mit einem `Kernel' gefaltet. Durch spezielle Wahl des Kernels ergibt sich z.B. auch das Spektrogramm. Einige Eigenschaften solcher allgemeinen Transformationen werden eingeführt. Daran werden bekannte Spektralanalyse-Methoden gemessen, z.B. Pseudo-Wigner-Distribution (in f-Richtung geglättete und zeitgefensterte - was nicht heißt: zeitlich geglättet - WD) und Spektrogramm. Letztere scheint dann weniger geeignet, wenn keine Kurzzeitstationarität vorliegt, da eine zeitliche Verschmierung erfolgt. Allerdings büßt die PWD die Postivitätseigenschaft (Energie-Interpretation) ein.
WD-CLA83
Claasen, T. A. C. M., Mecklenbräuker, W. F. G. The aliasing problem in discrete-time wigner distributions. IEEE Trans. Acoust., Speech, Signal Processing, 31(5): 1067-1072, 1983. Vergleich verschiedener Definitionen einer zeitdiskreten WD mit dem Ziel, Aliasing für Signalanteile zwischen fs/4 und fs/2 zu reduzieren. Ergebnis: das Beste ist es, durch Oversampling (oder analytisches Signal!?) das Aliasing grundsätzlich zu vermeiden.
WD-JAN83
Janse, C. P., Kaizer, J. M. Time-frequency distributions of loudspeakers: The application of the wigner distribution. J. Audio Eng. Soc., 31(4): 198-222, 1983. Relativ ausführliche Wiederholung der Grundlagen der WD, orientiert an WD-CLA80a-c. Anwendung auf Filter- und speziell Lautsprecher-Übertragungsverhalten. Offenbar lassen sich anhand der (P)WD-Plots von Lautsprechern Design-Kriterien formulieren.
WD-MAR86
Martin, W., Krüger-Alef, K. Appliction of the wigner-ville spectrum to the analysis of a class of bio-acoustical signals blurred by noise. Acustica, 61: 177-183, 1986. Etwas unklarer Artikel, baut eine verallgemeinerte Spektralanalyse für Random-Signale mit Hilfe der WVD auf. Sieht wie CLA80c aus. Mehr statistischer Ansatz. Anhand eines Beispiels werden Spektrogramm und PWD verglichen. Viele Literaturangaben.
WD-PRE87
Preis, D., Hlawatsch, F. Wigner distribution analysis of filters with perceptible phase distortion. J. Audio Eng. Soc., 35(12): 1004-1012, 1987. Anschaulicher Artikel, der mit vielen Bildern die WD-Analysen der Impulsantworten verschiedener Filter zeigt. Interpretationshilfen. Schwammige Argumentation, was nun der praktische Vorteil der WD ist: Sie kann als Basis aller Zeit-Frequenz-Analysen aufgefasst werden und ist deshalb besonders geeignet.
WD-VER88
Verschuur, D. J., Kaizer, A. J. M., Druyvesteyn, W. F., De Vries, D. Wigner representations of loudspeaker responses in a living room. J. Audio Eng. Soc., 36(4): 203-212, 1988. Praktische Versuche, Lautsprecher-Verhalten im Wohnzimmer auf die Spur zu kommen. Fazit: WD selbst ist wegen Interferenzen ungeeignet. Vielversprechend sollen dagegen geglättete WD-Repräsentationen sein. Anlehnung an WD-CLA80a-c.
WD-ZHA88
Zhao, Y., Atlas, L. E., Marks II, R. J. A useful class of generalized time-frequency representations for nonstationary signal analysis. Isdl-report, Interactive System Design Lab, University of Washington, Seattle, 1988. Vorstellung einer Klasse von Zeit-Frequenzrepräsentationen (s. CLA80c), basierend auf neuen Kerneln zur zweidimensionalen Glättung der Wignerdistribution. Vorteile: finiter t-Support und TP-Filterung in f-Richtung. In Spektrogramm-ähnlichen Bildern wird die spektral-zeitliche Information besser sichtbar als bei PWD und Spektrogramm. ACHTUNG: sollte in IEEE Trans. ASSP veröffentlicht werden.


$Id: gesverz.html,v 1.9 1998/03/29 21:11:11 mummert Exp mummert $