Automatische Spracherkennung

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen

Artikel ist noch in Arbeit, bitte noch nicht verändern!


Definition

Unter Automatischer Spracherkennung versteht man die computerbasierte Erkennung gesprochener Sprache und deren richtige Darstellung als Text. Bei der Automatischen Spracherkennung geht es darum eine mündliche Aussage in einem maschinellen System äquivalent darzustellen. Im engern Sinne spricht man von der korrekten Darstellung der Aussage als Text. Allerdings spricht man von Automatischem Sprachverstehen, wenn eine passende rechnerinterne Umschreibung generiert werden soll. Kommando- oder Dialogsysteme beinhalten weiterhin eine passende Systemreaktion zum gesprochenen Text.

Probleme und Anforderungen

Die menschliche Sprachkommunikation wirkt aus unserer Sicht einfach. Doch bei der Erkennung durch Computersysteme gilt es u.a. folgende Probleme zu lösen:

Kontinuität

Bei kontinuierlicher Sprache, das bedeutet zwischen den einzelnen Wörtern werden keine deutlichen Pausen gemacht (mit Pausen zwischen den Wörtern spricht man von diskreter Sprache), sondern es wird in normaler Geschwindigkeit und Rhythmus gesprochen, entsteht ein Erkennungsproblem: die Wortgrenzen sind schwer zu definieren.

Variabilität

Mündliche Sprache weist eine hohe Variabilität auf. So können starke Unterschiede beim Klang des gleichen Wortes entstehen.

Dies kann folgende Ursachen haben:

Zunächst ist die Sprecherabhängigkeit zu nennen. Jeder Sprecher verfügt über unterschiedliche stimmliche Merkmale, die von vielen Faktoren, wie zum Beispiel Alter, Geschlecht und Gesundheitszustand geprägt werden.

Auch die Sprechweise jedes Menschen ist unterschiedlich (Tempo, Artikulation, Dialekt, etc.).

Weiterhin bestehen Unterschiede in der Qualität der Aufnahme.

Schon früh gelang es Systeme zu entwickeln, die in schalldichten Räumen mit hochwertigen Mikrofonen mündliche Äußerungen erkennen konnten. Doch um die Automatische Spracherkennung flächendeckend nutzten zu können, gilt es auch mit einer qualitativ schlechteren Übertragung über das Telefonnetz erfolgreich zu sein und auch akustische Störquellen wie Rauschen oder auch Hintergrundgeräusche herauszufiltern.

Um das Problem der Variabilität zu lösen, muss das Erkennungsmuster, mit dem das System das Eingangssignal vergleicht, einerseits so weit gewählt werden, dass alle Realisierungen (also von verschiedenen Sprechern, in verschiedenen Tonlagen, etc.) erkannt werden. Andererseits darf dieses Muster aber auch nicht zu generell gehalten werden, um die Verwechslung mit anderen, ähnlichen Wörtern zu vermeiden.

Komplexität

Um so größer der verwendete Wortschatz, desto mehr Satzkombinationen werden möglich und desto größer wird das Suchproblem. Folglich muss die Rechenleistung des Computers steigen. Das ist sicherlich (unter anderem) der Grund dafür, dass erfolgreiche Spracherkennungssysteme erst in den letzen 20 Jahren entstanden sind.


Vorgehensweise

Datei:Vorgehensweise.jpg

Die Abbildung zeigt stark vereinfacht den Aufbau eines Spracherkennungssystems.

Im ersten Schritt werden die analogen Eingangssignale, also die Sprache, digitalisiert. Bei der Vorverarbeitung müssen weiterhin die Datenmengen auf das Wesentliche reduziert werden und auch die in 2.2 erklärten Störfaktoren, die auf die Variabilität der gesprochenen Sprache zurückzuführen sind, herausgefiltert werden. Die Daten liegen nach der Vorverarbeitung als sogenannte Referenz- oder Merkmalvektoren vor.

Um die passenden Phoneme zu finden, werden Hidden-Markov-Modelle (HMM) eingesetzt. Dazu werden die akustischen Modelle der Phoneme in Einzelteile zerlegt (je nach Phonemlänge ein Anfangsteil, mehrere Mittelteile und ein Schlussteil). Diese im System gespeicherten Modelle werden dann mit den Eingangssignalen verglichen. Man verwendet verschiedene Algorithmen, um das wahrscheinlichste Phonem zu berechnen.

Aus diesen Phonemen setzt dann ein Wörterbuch die möglichen Wörter oder Wortfolgen zusammen.

Zum Abschluss des Erkennungsprozesses kommt ein Sprachmodell zum Einsatz, welches die Wahrscheinlichkeit der Wortkombination, also den Satzzusammenhang, berechnet und somit das vom Sprecher gemeinte Wort aus der Liste der möglichen Wörter herausfiltern soll. Dazu kann entweder ein Grammatikmodell oder eine Trigrammstatistik verwendet werden: