Natürlichsprachige Schnittstelle: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Zeile 20: Zeile 20:
  
 
=Sprachgenerierung=
 
=Sprachgenerierung=
<p>Die Textgenerierung beschäftigt sich damit, wie es möglich ist, einem Computer beizubringen wie man einen sinnvollen, grammatikalisch richtigen und kohärenten Text formuliert. Dabei umfasst die Textgenerierung zwei wichtige Komponente, zum einen die '''strategische Komponente''', und zum anderen die''' taktische Komponente'''. </p>
+
<p>Die Textgenerierung beschäftigt sich damit, wie es möglich ist, einem Computer beizubringen, wie man einen sinnvollen, grammatikalisch richtigen und kohärenten Text formuliert. Dabei umfasst die Textgenerierung zwei wichtige Komponente, zum einen die '''strategische Komponente''', und zum anderen die''' taktische Komponente'''. </p>
 
<p><br>
 
<p><br>
Die '''strategische Komponente''' beschäftigt sich mit der Bestimmung, was gesagt werden soll, sie verwendet dabei Such- und Planungsstrategien der [http://de.wikipedia.org/wiki/Künstliche_Intelligenz Künstlichen Intelligenz].  
+
Die '''strategische Komponente''' beschäftigt sich mit der Bestimmung, was gesagt werden soll. Sie verwendet dabei Such- und Planungsstrategien der [http://de.wikipedia.org/wiki/Künstliche_Intelligenz Künstlichen Intelligenz].  
 
<br><br>
 
<br><br>
Die '''taktische Komponente''' beschäftigt sich damit, wie es gesagt werden soll, sie bestimmt dabei die Struktur des Textes, und trifft grammatikalische und lexikalische Entscheidungen um die Lesbarkeit eines Textes zu erhöhen. Ein sinnvoller Text kann nur durch die Kombination der beiden Komponenten erzeugt werden.</p>
+
Die '''taktische Komponente''' beschäftigt sich damit, wie es gesagt werden soll. Sie bestimmt dabei die Struktur des Textes und trifft grammatikalische und lexikalische Entscheidungen, um die Lesbarkeit eines Textes zu erhöhen. Ein sinnvoller Text kann nur durch die Kombination der beiden Komponenten erzeugt werden.</p>
 
 
  
 
=Maschinelle Verarbeitung gesprochener Sprache=
 
=Maschinelle Verarbeitung gesprochener Sprache=

Version vom 30. Januar 2006, 22:45 Uhr

Einleitung

„Schnittstellen ermöglichen die Interaktion zwischen zwei Systemen. Schnittstellen, die die Interaktion zwischen Mensch und künstlichem System per Sprache ermöglichen, tragen daher oft die Bezeichnung „Natürlichsprachliche Schnittstelle“ (natural language interfaces).“, (Zitat: Michael Hess, 2005)


Bei einer natürlichsprachigen Schnittstelle unterscheidet man zwei Möglichkeiten der Interaktion:

  1. Einseitig natürlichsprachige Interaktion.
  2. Beidseitig natürlichsprachige Interaktion.


Einseitige Interaktion könnte dabei z.B. die natürlichsprachige Ausgabe eines Computers bzw. Systems sein, genauso wie die natürlichsprachige Anfrage eines Nutzers an den Computer bzw. System. Wichtig dabei ist, dass die Interaktion nur von einer Seite natürlichsprachlich geführt wird und die andere zum Beispiel durch Textein und -ausgabe interagiert.

Beidseitig natürlichsprachige Interaktion setzt voraus, dass beide Interaktionspartner über natürlichsprachige Funktionen verfügen und diese als Kommunikationsmittel einsetzen. Mit Verweis auf das Kommunikationsmodell von Shannon und Weaver ist es natürlich wichtig, dass beide Kommunikationspartner über den selben Code verfügen, damit sinnvolle Kommunikation zustande kommen kann.

Natürlichsprachige Kommunikation mit künstlichen Systemen

Natürlichsprachige künstliche Systeme könnten dabei zum Beispiel Informationssysteme wie das Internet, Datenbanken und Expertensysteme sein, oder auch physische Systeme wie zum Beispiel Roboter, Haushaltsgeräte, Rollstühle, Diktiermaschinen oder Betriebssysteme etc..

Die nachfolgenden Ausführungen beziehen sich auf die oben aufgeführten Informationssysteme, und sind nur bedingt übertragbar auf die genannten physischen Systeme, die hier nur vollständigkeitshalber erwähnt sein sollten.

Bei einer beidseitig natürlichsprachigen Interaktion unterscheidet man zwischen „Frage-Antwort-Systemen“ und „Dialogsystemen“.

Frage-Antwort-Systeme haben keine Dialogkomponente. Ihre Kommunikation beschränkt sich darauf, auf die dem System bekannten Fragen mit Standard-Antworten zu antworten. Dieses sind meist fertig gespeicherte, natürlichsprachlich formulierte Antworten.

Dialogsysteme sind im Gegensatz dazu lernfähig. Sie merken sich bereits gestellte Fragen und gegebene Antworten und beziehen diese in ihrem Problemlösen ein. Dialogsysteme können, über ihre Antworten hinaus, auch Rückfragen stellen und passende Ergänzungen dazu anführen.

Erwähnt sei weiterhin, dass einige Systeme über Spracherkennungskomponenten und Synthesekomponenten zur Interaktion in gesprochener Sprache verfügen (siehe: Michael Hess, 2005).

Sprachgenerierung

Die Textgenerierung beschäftigt sich damit, wie es möglich ist, einem Computer beizubringen, wie man einen sinnvollen, grammatikalisch richtigen und kohärenten Text formuliert. Dabei umfasst die Textgenerierung zwei wichtige Komponente, zum einen die strategische Komponente, und zum anderen die taktische Komponente.


Die strategische Komponente beschäftigt sich mit der Bestimmung, was gesagt werden soll. Sie verwendet dabei Such- und Planungsstrategien der Künstlichen Intelligenz.

Die taktische Komponente beschäftigt sich damit, wie es gesagt werden soll. Sie bestimmt dabei die Struktur des Textes und trifft grammatikalische und lexikalische Entscheidungen, um die Lesbarkeit eines Textes zu erhöhen. Ein sinnvoller Text kann nur durch die Kombination der beiden Komponenten erzeugt werden.

Maschinelle Verarbeitung gesprochener Sprache

Erzeugen gesprochener Sprache: Sprachsynthese

Die Sprachsynthese setzt sich hauptsächlich damit auseinander, wie man es einem System möglich macht, aus einem geschriebenen Text automatisch gesprochene Sprache zu erzeugen. Dabei gibt es einige Probleme, die die Morphologie einer Sprache betreffen.

Um gesprochene Sprache zu erzeugen, spaltet die Sprachsynthese die einzelnen Wörter in Wortteile auf, diese könnten z.B. Phoneme, Morpheme, Diphone oder Halbphoneme sein. Je kleiner die einzelnen Wortteile dabei sind, desto schwieriger ist es allerdings einen flüssigen Redefluss zu erzeugen, deswegen verwendet man oft Halbphoneme und Diphone statt Phoneme. Ein weiteres Problem bei der Sprachsynthese ist die Homographie von Wörtern.

Hier seien 2 Beispiele für Homographen angeführt:

  1. Übersetzen: bei „einen Text übersetzen“ liegt die Betonung auf der dritten Silbe, wohingegen „mit einem Schiff übersetzen“ die Betonung auf der ersten Silbe des Wortes liegt.
  2. Modern: bei „die Holzscheite modern vor sich hin“ liegt die Betonung auf der 1.Silbe wohingegen bei „der Pullover ist modern“ die Betonung auf der 2. Silbe liegt.

In solchen Fällen muss das System in der Lage sein aus der Syntax und auch der Semantik die richtige Lesart herauszufinden.

Ein weiteres wichtiges Problem ist die Satzmelodie eines Textes, hierbei muss ein System den Sinn des Satzes „verstehen“. Die Satzmelodie kann manchmal sogar, selbst bei gleichen Sätzen, einen Bedeutungsunterschied tragen. Ein sehr einfaches Beispiel wäre, wenn man einen einfachen Aussagesatz alleine durch die Melodie als Frage umformuliert: „Das Haus steht leer“, oder „Das Haus steht leer?“. Hierbei könnte das System alleine durch die Interpunktion zur richtigen Lesart finden, schwierig wird es, wenn selbst die Interpunktion identisch ist.

Ein weiteres Problem ergibt sich selbst bei den alltäglichsten Nachrichtentexten, wenn sich z.B. Fremdwörter in dem Text befinden, bzw. Eigennamen oder Abkürzungen verwendet werden. Ein Beispielsatz dafür wäre: „Dr.A.Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.“

Auf der hier verlinkten Homepage, findet man eine Auflistung von natürlichsprachigen Systemen, mit denen genau dieser Satz formuliert wurde.
Hierbei sind die Unterschiede der einzelnen Systeme bei der Aussprache und Satzmelodie gut zu höhren.

Erkennen gesprochener Sprache: Spracherkennung

Das Erkennen gesprochener Sprache ist weitaus schwieriger als das Erzeugen gesprochener Sprache. Wortübergänge, auch Junkturen genannt, stellen hier das zentrale Problem dar.
Das Problem setzt sich aus zwei Teil-Problemen zusammen:

  1. Es ist sehr schwierig für das System die Sprechpausen zu realisieren.
  2. Oft werden Phoneme durch die Produktion anderer Phoneme vor und nachher beeinflusst, dies nennt man auch Koartikulation. Ein englischsprachiges Beispiel hierzu wäre zum Beispiel das Wort „the“ das je nachdem welches Wort, im engeren Sinn, welches Phonem folgt anders ausgesprochen wird.

Zentrale Begriffe bei der Koartikualtion sind auch noch die Assimilation, die Epenthese und die Deletion.

Die Leistungsfähigkeit eines Systems hängt stark von seinem Wortschatz ab, dabei ist das Fachvokubar unerlässlich für ein gut funktionierendes System. Wenn man sich dabei die Zahlen der bekannten Wörter eines Systems anschaut, sollte man im Hinterkopf behalten, dass der Wortschatz einer Sprache meist in dem Bereich von mehreren Hunderttausend Wörtern angesiedelt ist.
Im Folgenden sind drei Exempel-Wörterbücher aufgeführt:

  1. IBM ViaVoice: 56,000 Wörter Grundlexikon, ausbaubar auf 64’000 Wörter, mit 240’000 Wörter Back-up-Lexikon.
  2. Dragon ‘‘Dragon NaturallySpeaking Professional’’: 30,000, 45,000 oder 55,000 Wörter aktives Lexikon.
  3. L&H Voice Xpress: 30,000 Grundlexikon, ausbaubar auf 60,000 Wörte (inkl. Eigennamen, Akronyme, Phrasen).


Schließen möchte ich diesen Absatz mit einem Zitat:

„Spracherkennungssysteme müssen das grundlegende Problem lösen, die richtigen (d.h. vom Sprecher intendierten) Untereinheiten (Phoneme, Silben, etc.) im Sprachsignal zu erkennen. Die vielen Faktoren, die das Sprachsignal beeinflussen (Störgeräusche, Schnupfen, artikulatorische Einflüsse etc.), und das Zusammenbringen von Evidenzen für die richtige Interpretation von verschiedenen linguistischen Ebenen machen Sprcaherkennung so schwierig“ (Michael Hess, 2005).


Weiterführende Beispiele für Sprachgesteuerte Systeme

1. Beispiel für maschinelle Verarbeitung gesprochener Sprache.
http://www.tmaa.com/tts/comparison_USEng_telephony.htm

2. Ein weiteres System, in dem man selber den Text, den das System sprechen soll, eingeben kann.
http://elvis.naturalvoices.com/demos/

3.Eine Seite, die die verschiedenen Systeme vergleicht.
http://ttssamples.syntheticspeech.de/deutsch/


Quellen

Prof. Dr. Michael, Hess. (2005). Einführung in die Computerlinguistik. Online unter: http://www.ifi.unizh.ch/cl/hess/classes/ecl1/ecl1.0.pdf
Datum des letzten Zugriffes: 18.01.2006