Automatische Spracherkennung
Artikel ist noch in Arbeit, bitte noch nicht verändern!
Inhaltsverzeichnis
Definition
Unter Automatischer Spracherkennung versteht man die computerbasierte Erkennung gesprochener Sprache und deren richtige Darstellung als Text. Bei der Automatischen Spracherkennung geht es darum eine mündliche Aussage in einem maschinellen System äquivalent darzustellen. Im engern Sinne spricht man von der korrekten Darstellung der Aussage als Text. Allerdings spricht man von Automatischem Sprachverstehen, wenn eine passende rechnerinterne Umschreibung generiert werden soll. Kommando- oder Dialogsysteme beinhalten weiterhin eine passende Systemreaktion zum gesprochenen Text.
Probleme und Anforderungen
Die menschliche Sprachkommunikation wirkt aus unserer Sicht einfach. Doch bei der Erkennung durch Computersysteme gilt es u.a. folgende Probleme zu lösen:
Kontinuität
Bei kontinuierlicher Sprache, das bedeutet zwischen den einzelnen Wörtern werden keine deutlichen Pausen gemacht (mit Pausen zwischen den Wörtern spricht man von diskreter Sprache), sondern es wird in normaler Geschwindigkeit und Rhythmus gesprochen, entsteht ein Erkennungsproblem: die Wortgrenzen sind schwer zu definieren.
Variabilität
Mündliche Sprache weist eine hohe Variabilität auf. So können starke Unterschiede beim Klang des gleichen Wortes entstehen.
Dies kann folgende Ursachen haben:
Zunächst ist die Sprecherabhängigkeit zu nennen. Jeder Sprecher verfügt über unterschiedliche stimmliche Merkmale, die von vielen Faktoren, wie zum Beispiel Alter, Geschlecht und Gesundheitszustand geprägt werden.
Auch die Sprechweise jedes Menschen ist unterschiedlich (Tempo, Artikulation, Dialekt, etc.).
Weiterhin bestehen Unterschiede in der Qualität der Aufnahme.
Schon früh gelang es Systeme zu entwickeln, die in schalldichten Räumen mit hochwertigen Mikrofonen mündliche Äußerungen erkennen konnten. Doch um die Automatische Spracherkennung flächendeckend nutzten zu können, gilt es auch mit einer qualitativ schlechteren Übertragung über das Telefonnetz erfolgreich zu sein und auch akustische Störquellen wie Rauschen oder auch Hintergrundgeräusche herauszufiltern.
Um das Problem der Variabilität zu lösen, muss das Erkennungsmuster, mit dem das System das Eingangssignal vergleicht, einerseits so weit gewählt werden, dass alle Realisierungen (also von verschiedenen Sprechern, in verschiedenen Tonlagen, etc.) erkannt werden. Andererseits darf dieses Muster aber auch nicht zu generell gehalten werden, um die Verwechslung mit anderen, ähnlichen Wörtern zu vermeiden.
Komplexität
Um so größer der verwendete Wortschatz, desto mehr Satzkombinationen werden möglich und desto größer wird das Suchproblem. Folglich muss die Rechenleistung des Computers steigen. Das ist sicherlich (unter anderem) der Grund dafür, dass erfolgreiche Spracherkennungssysteme erst in den letzen 20 Jahren entstanden sind.
Vorgehensweise
Die Abbildung zeigt stark vereinfacht den Aufbau eines Spracherkennungssystems.
Im ersten Schritt werden die analogen Eingangssignale, also die Sprache, digitalisiert. Bei der Vorverarbeitung müssen weiterhin die Datenmengen auf das Wesentliche reduziert werden und auch die in 2.2 erklärten Störfaktoren, die auf die Variabilität der gesprochenen Sprache zurückzuführen sind, herausgefiltert werden. Die Daten liegen nach der Vorverarbeitung als sogenannte Referenz- oder Merkmalvektoren vor.
Um die passenden Phoneme zu finden, werden Hidden-Markov-Modelle (HMM) eingesetzt. Dazu werden die akustischen Modelle der Phoneme in Einzelteile zerlegt (je nach Phonemlänge ein Anfangsteil, mehrere Mittelteile und ein Schlussteil). Diese im System gespeicherten Modelle werden dann mit den Eingangssignalen verglichen. Man verwendet verschiedene Algorithmen, um das wahrscheinlichste Phonem zu berechnen.
Aus diesen Phonemen setzt dann ein Wörterbuch die möglichen Wörter oder Wortfolgen zusammen.
Zum Abschluss des Erkennungsprozesses kommt ein Sprachmodell zum Einsatz, welches die Wahrscheinlichkeit der Wortkombination, also den Satzzusammenhang, berechnet und somit das vom Sprecher gemeinte Wort aus der Liste der möglichen Wörter herausfiltern soll. Dazu kann entweder ein Grammatikmodell oder eine Trigrammstatistik verwendet werden:
Grammatikgesteuerte Systeme:
Kommt ein Grammatikmodell zum Einsatz muss jedem Wort eine genaue grammatikalische Funktion zugeordnet werden. Daher kommen diese Systeme nur zum Einsatz, wenn ein eingeschränkter Wortschatz erkannt werden soll.
Wahrscheinlichkeitsorientierte Systeme:
Bei der Entwicklung von Spracherkennungssystemen haben sich wahrscheinlichkeitsorientierte Systeme bei großem Wortschatzumfang als erfolgreicher herausgestellt. Diese Art von Sprachmodellen berechnen die Kombinationswahrscheinlichkeit von (meistens) drei Wörtern. Man nennt sie deshalb Trigrammstatistiken. Durch diese Vorgehensweise wurde sogar in den meisten Fällen eine Lösung für das Problem der Homophone (z.B.: Rad /Rat) gefunden. Die Statistikwerte werden dem System durch das Einspeisen von Beispieltexten zugeführt.
Anwendungsgebiete
Die Anwendungsgebiete der Automatischen Spracherkennung sind nach Schukat-Talamazzini folgende:
Haushalt (z.B.: Licht, Unterhaltungselektronik)
Büro (z.B.: Informationsabfrage, Gerätebedienung, Diktiergeräte)
Industrie (z.B.: Inventur)
Zahlungsverkehr (z.B.: Telefonbanking (kommt heute schon erfolgreich zum Einsatz))
Personentransport (Fahrplanauskunft)
öffentliche Informationsdienste (Wettervorhersage, Veranstaltungskalender)
Ausbildung (Fremdsprachenerwerb)
Medizin (Diagnosesysteme, Mikroskopie)
militärischer Bereich (Waffensystemkontrolle, Flugzeugbedienung)
Behindertenhilfe (Sprechtraining für Gehörlose, Fahrzeugbedienung, Filmuntertitelung)
Außerdem ist die Automatische Spracherkennung beispielsweise auch Teil von Automatischen Dolmetschsystemen (vgl. auch Maschinelle Übersetzung), wie zum Beispiel Verbmobil, das lautsprachliche Äußerungen aus dem Bereich der Terminabsprache auf deutsch, englisch und japanisch erkennt und dann übersetzt, damit der Gesprächspartner diese versteht und auch in seiner eigenen Sprache darauf antworten kann.