Robuste Spracherkennung

Implementierung
Erkennung unter Merkmalsunsicherheit
Statistische Sprachsignalverarbeitung
Blinde Quellentrennung
Audiovisuelle Spracherkennung

Implementierung

Das JASPER-System beruht für rein akustische Spracherkennung und für das Lippenlesen auf einer Token-Passing-Architektur, die Hidden Markov Modelle mit Gaußschen Mischungsmodellen (GMMs) als Ausgabeverteilungen einsetzt.

Für die audiovisuelle Erkennung verwenden wir gekoppelte HMMs. Dies ist wichtig, um auch mögliche Asynchronitäten von Audio- und Videomerkmalen zu kompensieren, die unter anderem deswegen auftreten, weil bei der Aussprache von Worten oft zuerst die Artikulatoren positioniert werden, bevor die eigentliche Aussprache erfolgt, so dass die Videomerkmale den Audiomerkmalen oft vorauseilen.

Das System setzt außerdem Techniken zur Erkennung unter Merkmalsunsicherheit ein, um bei Störungen von Audio- und Videomerkmalen die Informationen aus den beiden Merkmalsströmen entsprechend ihrer aktuellen Zuverlässigkeit gewichten zu können.

Die JASPER-Erweiterung CASPER verwendet CUDA, um mit Hilfe von hoch parallelen Graphikkarten, mit oft mehreren hundert Streaming Prozessoren, die rechenaufwendigen GMMs effizient zu berechnen, und so auch bei audiovisueller Erkennung echtzeitfähig zu sein  Interspeech2010.pdf.