Interactive Systems Labs (ISL)

Grundlagen der Automatischen Spracherkennung

Notes

This class explains the layout of state-of-the-art speech recognition systems. The layout will be motivated based on the human speech production process und its properties. The class treats all processing steps of automatic speech recognition systems in detail: signal pre-processing, training of suitable, statistical models, and the actual recognition process. The focus will be on statistical methods, as they are being used in current speech recognition systems. In this way the state-of-the-art of the area of automatic speech recognition will be communicated. Further the class will introduce alternative Methods, which were the foundation of the current methods and which are still being used in special circumstances. Using sample applications und examples from current research projects, the current state-of-the-art and the performance of current systems will be illustrated.

Language of instructionDeutsch
Description

This class explains the layout of state-of-the-art speech recognition systems. The layout will be motivated based on the human speech production process und its properties. The class treats all processing steps of automatic speech recognition systems in detail: signal pre-processing, training of suitable, statistical models, and the actual recognition process. The focus will be on statistical methods, as they are being used in current speech recognition systems. In this way the state-of-the-art of the area of automatic speech recognition will be communicated. Further the class will introduce alternative Methods, which were the foundation of the current methods and which are still being used in special circumstances. Using sample applications und examples from current research projects, the current state-of-the-art and the performance of current systems will be illustrated.

Bibliography
  • Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001
  • Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England

Weiterführende Literatur

  • Lawrence Rabiner and Ronald W. Schafer, Digital Processing of Speech Signals, Prentice Hall, 1978
  • Schukat-Talamazzini, Automatische Spracherkennung
Workload

180 h

Aim

Der Student wird in die Grundlagen der automatischen Erkennung von Sprache eingeführt. Er lernt dabei den grundlegenden Aufbau eines Spracherkennungssystems kennen sowie die konkrete Anwendung der Konzepte und Methoden aus dem Bereich des maschinellen Lernens, die bei der automatischen Spracherkennung eingesetzt werden.

Um ein tieferes Verständnis zu erlangen und zur Motivation der eingesetzten Techniken, soll der Student ferner das grundlegende Konzept der Produktion menschlicher Sprache verstehen und daraus den Aufbau eines Spracherkennungssystems ableiten können.

Ferner sollen die Studenten verschiedene Anwendungsfälle für automatische Spracherkennung analysieren können und, basierend auf der erkannten Komplexität des Anwendungsfalls, ein geeignetes Spracherkennungssystem entwerfen können.

Im einzelnen sollen die Studenten den Aufbau der Komponenten eines Spracherkennungssystems --- Vorverarbeitung, akustisches Modell, Sprachmodell und Suche --- erlernen. Die Studenten sollen in der Lage sein, nach Besuch der Vorlesung entsprechende Komponenten selber implementieren oder anwenden zu können.
Die Studierenden erlernen ferner die Fähigkeit, die Leistungsfähigkeit von konkreten Spracherkennungssystemen beurteilen und evaluieren zu können.

Ferner soll der Student in die Grundlagen weiterführender Techniken der automatischen Spracherkennung, etwa die Verwendung von Modell- und Merkmalsraumadaption, und die Art ihrer Anwendung eingeführt werden.