Verbmobil

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Wechseln zu: Navigation, Suche

Abstract

Verbmobil ist ein langfristig angelegtes, interdisziplinäres Leitprojekt im Bereich der Sprachtechnologie. Das Verbmobil-System soll gesprochene Spontansprache erkennen, die Eingabe analysieren, sie in eine Fremdsprache übersetzen, einen Satz erkennen und ihn aussprechen. Für ausgewählte Themenbereiche (z. B. Terminverhandlung, Reiseplanung, Fernwartung) soll Verbmobil Übersetzungshilfe in Gesprächssituationen mit ausländischen Partnern leisten. Das Verbundvorhaben, in dem Unternehmen der Informationstechnologie, Universitäten und Forschungszentren kooperieren, wird vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) in zwei Phasen (Laufzeit Phase 1: 1993-1996; Phase 2: 1997 - 2000) gefördert. Nachdem in der ersten Phase Terminverhandlungsdialoge zwischen einem deutschen und japanischen Geschäftspartner mit Englisch als Zwischensprache verarbeitet wurden, steht in der zweiten Phase von Verbmobil die robuste und bidirektionale Übersetzung spontansprachlicher Dialoge aus den Domänen Reiseplanung und Hotelreservierung für die Sprachpaare Deutsch-Englisch (ca. 10.000 Wörter) und Deutsch-Japanisch (ca. 2.500 Wörter) im Vordergrund.

Verbmobil - Was ist das?

Verbmobil ist ein langfristig angelegtes, interdisziplinäres Verbundvorhaben im Bereich der Sprachtechnologie. Das Verbmobil-System erkennt spontangesprochene Alltagsprache, analysiert die Eingabe, übersetzt sie in eine andere Sprache, erzeugt einen Satz und spricht ihn aus. Das System soll Übersetzungshilfe in Gesprächssituationen mit ausländischen Geschäftspartnern in bestimmten Themenbereichen leisten: z. B. Hotelreservierung, Reise-Planung, Terminvereinbarung. Kurz gesagt: Verbmobil soll als Dolmetschsystem für Telefongespräche dienen. Es soll bestimmte Typen von Telefongesprächen zwischen Deutsch und Englisch bzw. Deutsch und Japanisch jeweils in beide Richtungen dolmetschen können. Im Leitprojekt Verbmobil konnte seit 1993 in 3 1/2 Jahren der Vision der Übersetzung von Dialogen durch ein tragbares Computersystem einen weiteren Schritt gemacht werden. Bei einem Vergleichstest hat der Spracherkenner der Universität Karlsruhe, der im Rahmen von Verbmobil entwickelt wurde, eine Wortfehlerrate von 13% erreicht. Dies ist Weltrekord bei Spontansprache mit extrem langen Äußerungen und ein Fortschritt, wenn man bedenkt, dass zu Beginn des Projekts die Wortfehlerrate bei 50 % lag.

In Verbmobil wurde erstmals eine sprachwissenschaftlich fundierte Computergrammatik für gesprochenes Deutsch realisiert, das sich bekanntlich stark von der Dudengrammatik für Schriftsprache unterscheidet. So muss diese Grammatik z. B. mit Auslassungen und ungewöhnlichen Wortstellungen umgehen können. "Komme morgen“, anstatt "Ich komme morgen"; "Sieht gut aus am Freitag“, anstatt "Am Freitag sieht es gut aus" sind Beispiele für Umgangssprache, mit denen Verbmobil konfrontiert ist. Völlig neuartig sind die gesprochenen Klärungsdialoge in Verbmobil, wenn es Verständnisschwierigkeiten zwischen Mensch und Maschine gibt. Hier wird nicht bei jedem Problem - wie bei bisherigen Systemen - ausgegeben: "Eingabe nicht verstanden, bitte noch mal sprechen", sondern gezielt auf mögliche Missverständnisse abgeprüft. Beispielsweise fragt Verbmobil: "Meinen Sie "sonntags?" wenn der Sprecher undeutlich artikuliert hat und dem System unklar ist, ob "Sonntag habe ich Zeit" oder "sonntags habe ich Zeit" gesprochen wurde.

Übersetzung gesprochener Spontansprache

Spontansprache ist frei formulierte Alltagssprache, bei der ein Sprecher nicht etwa vorbereitete Texte vorliest. Gedankengänge werden fortlaufend in Sprache umgesetzt, wobei sehr häufig auch ungrammatische Sätze entstehen.

Das System muss somit auch mit abgebrochenen Sätzen, Selbstkorrekturen, Einschüben, Nebengeräuschen, Äußerungselementen wie Räuspern, Schmatzen u. Ä zu Recht kommen. Wenn der Sprecher sagt "Ja, ich weil also würde mal sagen äh vorschlagen, wir könnten uns am äh 7. treffen so im Mai", so würde dieser Satz von einem an der Schriftsprache orientierten System abgelehnt und der Sprecher müsste den Satz wiederholen. Durch Kombination von statistischen und linguistischen Verfahren wird Verbmobil jedoch so fehlertolerant und robust, dass der Dialogakt "suggest_date" mit der Datumsangabe "7. Mai" aus der oben zitierten Äußerung extrahiert und die Übersetzung "How about the seventh of May?" ausgegeben wird.

Ein zusätzliches Problem stellen dialektale Färbungen dar. So ist bei vielen Sprechern aus dem Saarland und der Pfalz in der Äußerung "Ich finde das nätt" rein akustisch "nett" kaum von "nicht" zu unterscheiden. Auch ein menschlicher Dialogpartner kann in diesem Fall nur durch Einbeziehung des Kontextes und der Betonung ermitteln, ob der Satz als Zustimmung oder als Ausdruck einer ergebnislosen Suche gemeint ist.

Gesprochene Sprache kennt keine Interpunktion; Betonung und Phrasierung ersetzen Punkt und Komma. Die Wortfolge "Ja-zur-Not-geht-es-auch-am-Samstag" kann je nach Betonung als Bestätigung des Termins "Samstag" interpretiert werden ("Ja, zur Not geht es auch am Samstag.") oder als eingeschränkte Annahme eines Termins mit Gegenvorschlag: "Ja, zur Not! Geht es auch am Samstag?" Nur durch die Berücksichtigung der Prosodie können Mehrdeutigkeiten auch von einzelnen Wörtern wie "noch" für die Übersetzung aufgelöst werden. Lautet die Eingabe "Wir brauchen noch einen Termin" ohne prosodischen Akzent auf "noch", so übersetzt Verbmobil mit "We still need a date". Wird "noch" jedoch betont, so wählt Verbmobil aufgrund der anderen Satzbedeutung die Übersetzung "We need another appointment". Ohne Weltwissen über den Gesprächsgegenstand ist eine Übersetzung oft nicht möglich. Die Transferregeln von Verbmobil müssen daher in Sortentests auf Wissen zurückgreifen.

Verbmobil übersetzt ganze Sätze im Gegensatz zu konventionellen Systemen aber kontextabhängig. Für die Eingabe "Wie wäre es am Montag? Geht es bei Ihnen?" liefert Verbmobil die Übersetzung: "How about Monday? Is it possible for you?". Lautet der erste Satz jedoch "Wo können wir uns treffen?" übersetzt Verbmobil "Geht es bei Ihnen?" korrekt als "Do we meet at your place?" Dies konnte nur erreicht werden, indem der Übersetzungsprozess Abhängigkeiten von vorangehenden Sätzen berücksichtigt. Außerdem wird in Verbmobil u. a. mit Hilfe von neuronalen Netzen versucht, den Stimmcharakter des jeweiligen Sprechers auch bei der automatisch erzeugten Übersetzung nachzubilden, so dass nicht etwa die deutsche Eingabe einer Frauenstimme in der englischen Übersetzung als eine tiefe Männerstimme ertönt.

Verbmobil – Systeme der Phase 1

Das erste integrierte System, der sog. Verbmobil-Demonstrator, wurde 1995 während der CeBIT von Bundesforschungsminister Dr. Jürgen Rüttgers der Öffentlichkeit vorgestellt. Der Verbmobil-Demonstrator (Umfang 1292 Wörter) erkennt gesprochene deutsche Eingaben aus dem Bereich der Terminverhandlung, analysiert sie, übersetzt sie und äußert die englische Übersetzung. Der Verbmobil-Forschungsprototyp 1.0 (Umfang 2461 Wörter), der auf der CeBIT 1997 vorgestellt wurde, erkennt auch japanische Eingaben, um sie ins Englische zu übersetzen, und kann auch auf Deutsch Klärungsdialoge mit dem Benutzer führen. Für die erste Projektphase wurden bis Ende 1996 64,9 Millionen DM Fördermittel des BMBF eingeplant. Zusätzlich brachten die Industriepartner 31 Millionen DM auf. Durch die gezielte Zusammenführung aller Wissensträger aus Wissenschaft und Industrie ist bereits in der ersten Phase ein sehr wirkungsvoller Technologietransfer gelungen, der zu innovativen Produktlösungen bei den im Projekt beteiligten Unternehmen u. a. in den Bereichen Diktiersysteme, telephonische Informationssysteme und Freisprecheinrichtungen sowie der Sprachbedienung im Fahrzeug geführt hat. Die durch Verbmobil erlangte internationale Spitzenstellung im Bereich der Sprachtechnologie wurde inzwischen von den Projektpartnern auch durch mehrere Patente gesichert. Nach der erfolgreichen Abnahme des Verbmobil-Forschungsprototyps im Oktober 1996 bewilligte das BMBF für die zweite Phase (1997 - 2000) 50,2 Mio. DM; die Industriepartner stellen 20,4 Mio. DM an Eigenmitteln zur Verfügung. In der zweiten Phase wird Verbmobil auf einem zentralen Sprachserver implementiert (Umfang ca. 10000 Wörter für Deutsch-Englisch und 2500 Wörter für Deutsch-Japanisch), der über ISDN-Telephone, ATM-basierte Telekooperationsdienste oder GSM-Mobilfunk in Anspruch genommen werden kann. Dieser Sprachserver identifiziert die Eingabesprache und übernimmt die Spracherkennungs-, Übersetzungs- und Sprachgenerierungsleistung. Da mehrere Nutzer die Übersetzungsdienstleistung gleichzeitig in Anspruch nehmen können, werden bei dem Sprachserverkonzept parallele Kanäle vorgesehen. Verbmobil wird dadurch auch in mehrsprachigen Telekonferenzen mit mehr als zwei Partnern eingesetzt werden können (Multiparty-Situation).


Der Forschungsprototyp von Verbmobil

Nach Angaben des DFKI und aus den Pressemitteilungen, wurden alle technischen Ziele der ersten Phase von Verbmobil erreicht und in einem Forschungsprototypen realisiert:

  1. Erkennung fließend gesprochener Spontansprache für Deutsch, Japanisch und Englisch über Nahbesprechungsmikrophon
  2. Wortschatz von ca. 2500 Wörtern für die Übersetzungsrichtung Deutsch nach Englisch
  3. Sprecheradaptives System mit sprecherunabhängigem Kern
  4. Linguistisch fundierte deutsche Basisgrammatik für Spontansprache mit tiefer und flacher semantischer Analyse
  5. Gesprochene Klärungsdialoge zwischen dem Benutzer und dem Verbmobil- System bei Spracherkennungs- und Verstehensproblemen
  6. Semantischer Transfer für Deutsch -Englisch und Japanisch - Englisch
  7. Sprachgenerierung für Englisch und für deutsche Paraphrasen
  8. mehr als 70% annähernd korrekte Übersetzungen bei der End-to-End Evaluation in der Domäne Terminverhandlung
  9. Reine Softwarelösung für alle Module auf Standardhardware
  10. Netto-Verarbeitungszeit weniger als das sechsfache der Echtzeit, bezogen auf die Länge des Eingabe-Sprachsignals

Wie die Architekturübersicht in Fig. 1 zeigt, wurde Verbmobil als hochgradig nebenläufiges System nach dem Multiagenten-Prinzip mit zahlreichen Kommunikationsschnittstellen zwischen den Verarbeitungsmodulen vollständig Objekt orientiert realisiert. Die Benutzeroberfläche, durch die auch der Verarbeitungsablauf visualisiert wird, zeigt nur die Hauptmodule der insgesamt 43 Systemkomponenten.


Fig.1.jpg

Fig. 1: Die Benutzeroberfläche des Forschungsprototypen von Verbmobil (Quelle: Verbmobil, Projekthomepage. Online verfügbar unter: http://www.dfki.de/verbmobil)

2. Phase

In der zweiten Phase ging es um die Multilingualität. Hierbei war die direkte Übersetzung spontansprachlicher Dialoge für die Sprachpaare Deutsch-Englisch, mit einem Umfang von etwa 10000 Wörtern, und Deutsch-Japanisch, mit etwa 2500 Wörtern, vordergründig. Es wurden sprachtechnologische Werkzeuge entwickelt, die auf die multilingualen Anforderungen abgestimmt sind und die auch für große Wortschätze, z. B. durch semiautomatische Adaptions- und Lernverfahren, eine zeit- und kostengünstige Systemrealisierung ermöglichen.

Ein weiterer Schwerpunkt war auch die Domänenabhängigkeit. Es wurde untersucht, ob durch das Erkennen des Hauptgesprächsthemas oder eines Themenwechsels (Topic Detection) das Umschalten auf ein anderes Domänenmodell durch den Benutzer entfallen kann.

Das Ziel der Zweiten Phase war es, am Ende ein System verfügbar zu machen, welches nicht von einer Spracheingabe über ein Nahbesprechungsmikrophon abhängt. Freisprechen, Verarbeitung von Spontansprache in Telefon- oder Funkqualität sollte ermöglicht werden.


Sprachanalyse

In der zweiten Phase von Verbmobil wurden zwei Verarbeitungsstränge - die tiefe wissensbasierte und die reduktionistische flache Analyse - integriert. So wurde auch die Verarbeitung von syntaktisch und semantisch deformierten Äußerungen möglich. Eine neue Komponente zum partiellen Parsing fügt in den Interpretationsgraphen partielle syntaktisch-semantische Elemente ein, die Folgen von Worthypothesen überspannen. Die generelle Vorgehensweise besteht darin, dass die Äußerung inkrementell durch stochastische endliche Automaten in partiell syntaktisch und semantisch interpretierbare Einheiten aufgebrochen wird.

Fig.2. Tief-Flach-Analyse.jpg

Fig. 2: Tief-Flach-Analyse (Quelle: Verbmobil, Projekthomepage. Online verfügbar unter: http://www.dfki.de/verbmobil)

Mögliches Anwendungsszenario

In einem Anwendungsszenario wird Verbmobil in mehrsprachigen multimedialen Telekonferenzen (vgl. Fig. 3) zur Reiseplanung mit mehr als zwei Partnern getestet (Multiparty-Situation). Die Übersetzung erfolgt bidirektional für die einzelnen Sprachpaare. Geht man von einer multilingualen Telekonferenz aus, z.B. mit einem Deutschen, einem Japaner und einem Amerikaner, so wird Verbmobil einen deutschen Dialogbeitrag parallel ins Englische und ins Japanische übersetzen, um bei sämtlichen Dialogpartnern den gleichen Informationsstand zu garantieren. Dialogakte modellieren die intendierte Interpretation von Äußerungen in Dialogen und stellen Informationstypen dar, die von spontansprachlichen Performanzphänomenen abstrahieren und nur die relevante Information einer Äußerung repräsentieren. Statistische Methoden aus der Sprachmodellierung werden benutzt, um Dialogakte zu erkennen (z.Z. ca. 70% korrekte Erkennung).

Fig.3. Anwendungsszenario.jpg

Fig. 3: Anwendungsszenario (Quelle: Verbmobil, Projekthomepage. Online verfügbar unter: http://www.dfki.de/verbmobil)

Literatur

  • Presseerklärung München 24.10.96 (Quelle nicht mehr vorhanden)
  • Presseerklärung anlässlich der Pressekonferenz am 9. Dezember 1998 in Aachen (Quelle nicht mehr vorhanden)