Verbmobil
Verbmobil
Abstract
Verbmobil ist ein langfristig angelegtes, interdisziplinäres Leitprojekt im Bereich der Sprachtechnologie. Das Verbmobil-System erkennt gesprochene Spontansprache, analysiert die Eingabe, übersetzt sie in eine Fremdsprache, erzeugt einen Satz und spricht ihn aus. Für ausgewählte Themenbereiche (z. B. Terminverhandlung, Reiseplanung, Fernwartung) soll Verbmobil Übersetzungshilfe in Gesprächssituationen mit ausländischen Partnern leisten. Das Verbundvorhaben, in dem Unternehmen der Informationstechnologie, Universitäten und Forschungszentren kooperieren, wird vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) in zwei Phasen (Laufzeit Phase 1: 1993-1996; Phase 2: 1997 - 2000) gefördert. Nachdem in der ersten Phase Terminverhandlungsdialoge zwischen einem deutschen und japanischen Geschäftspartner mit Englisch als Zwischensprache verarbeitet wurden, steht in der zweiten Phase von Verbmobil die robuste und bidirektionale Übersetzung spontansprachlicher Dialoge aus den Domänen Reiseplanung und Hotelreservierung für die Sprachpaare Deutsch-Englisch (ca. 10.000 Wörter) und Deutsch-Japanisch (ca. 2.500 Wörter) im Vordergrund.
Inhaltsverzeichnis
Gliederung
- Verbmobil – Was ist das?
- Übersetzung gesprochener Spontansprache
- 1. Phase
- Forschungsprototyp
- 2. Phase
- Internationaler Vergleich von Systemen
Verbmobil - Was ist das?
Verbmobil ist ein langfristig angelegtes, interdisziplinäres Verbundvorhaben im Bereich der Sprachtechnologie. Das Verbmobil-System erkennt spontangesprochene Alltagsprache, analysiert die Eingabe, übersetzt sie in eine andere Sprache, erzeugt einen Satz und spricht ihn aus. Das System soll Übersetzungshilfe in Gesprächssituationen mit ausländischen Geschäftspartnern in bestimmten Themenbereichen leisten: z. B. Hotelreservierung, Reise-planung, Terminvereinbarung. Kurz gesagt: Verbmobil soll als Dolmetschsystem für Telefongespräche dienen. Es soll bestimmte Typen von Telefongesprächen zwischen Deutsch und Englisch bzw. Deutsch und Japanisch jeweils in beide Richtungen dolmetschen können. Im Leitprojekt Verbmobil konnte seit 1993 in nur 3 1/2 Jahren der Vision der Übersetzung von Dialogen durch ein tragbares Computersystem einen weiteren Schritt gemacht werden. Bei einem Vergleichstest hat der Spracherkenner der Universität Karlsruhe, der im Rahmen von Verbmobil entwickelt wurde, eine Wortfehlerrate von 13% erreicht. Dies ist Weltrekord bei Spontansprache mit extrem langen Äußerungen und ein außerordentlicher Fortschritt, wenn man bedenkt, dass zu Beginn des Projekts die Wortfehlerrate bei 50 % lag.
In Verbmobil wurde erstmals eine sprachwissenschaftlich fundierte Computergrammatik für gesprochenes Deutsch realisiert, das sich bekanntlich stark von der Dudengrammatik für Schriftsprache unterscheidet. So muss diese Grammatik z. B. mit Auslassungen und ungewöhnlichen Wortstellungen umgehen können. "Komme morgen“, anstatt "Ich komme morgen"; "Sieht gut aus am Freitag“, anstatt "Am Freitag sieht es gut aus" sind Beispiele für Umgangssprache, mit denen Verbmobil konfrontiert ist. Völlig neuartig sind die gesprochenen Klärungsdialoge in Verbmobil, wenn es Verständnisschwierigkeiten zwischen Mensch und Maschine gibt. Hier wird nicht bei jedem Problem - wie bei bisherigen Systemen - ausgegeben: "Eingabe nicht verstanden, bitte noch mal sprechen", sondern gezielt auf mögliche Missverständnisse abgeprüft. Beispielsweise fragt Verbmobil: "Meinen Sie "sonntags?" wenn der Sprecher undeutlich artikuliert hat und dem System unklar ist, ob "Sonntag habe ich Zeit" oder "sonntags habe ich Zeit" gesprochen wurde.
Übersetzung gesprochener Spontansprache
Spontansprache ist frei formulierte Alltagssprache, bei der ein Sprecher nicht etwa vorbereitete Texte vorliest. Gedankengänge werden fortlaufend in Sprache umgesetzt, wobei sehr häufig auch ungrammatische Sätze entstehen.
Das System muss somit auch mit abgebrochenen Sätzen, Selbstkorrekturen, Einschüben, Nebengeräuschen, Äußerungselementen wie Räuspern, Schmatzen u. Ä zurecht kommen. Wenn der Sprecher sagt "Ja, ich weil also würde mal sagen äh vorschlagen, wir könnten uns am äh 7. treffen so im Mai", so würde dieser Satz von einem an der Schriftsprache orientierten System abgelehnt und der Sprecher müsste den Satz wiederholen. Durch Kombination von statistischen und linguistischen Verfahren wird Verbmobil jedoch so fehlertolerant und robust, dass der Dialogakt "suggest_date" mit der Datumsangabe "7. Mai" aus der oben zitierten Äußerung extrahiert und die Übersetzung "How about the seventh of May?" ausgegeben wird.
Ein zusätzliches Problem stellen dialektale Färbungen dar. So ist bei vielen Sprechern aus dem Saarland und der Pfalz in der Äußerung "Ich finde das nätt" rein akustisch "nett" kaum von "nicht" zu unterscheiden. Auch ein menschlicher Dialogpartner kann in diesem Fall nur durch Einbeziehung des Kontextes und der Betonung ermitteln, ob der Satz als Zustimmung oder als Ausdruck einer ergebnislosen Suche gemeint ist.
Gesprochene Sprache kennt keine Interpunktion; Betonung und Phrasierung ersetzen Punkt und Komma. Die Wortfolge "Ja-zur-Not-geht-es-auch-am-Samstag" kann je nach Betonung als Bestätigung des Termins "Samstag" interpretiert werden ("Ja, zur Not geht es auch am Samstag.") oder als eingeschränkte Annahme eines Termins mit Gegenvorschlag: "Ja, zur Not! Geht es auch am Samstag?" Nur durch die Berücksichtigung der Prosodie können Mehrdeutigkeiten auch von einzelnen Wörtern wie "noch" für die Übersetzung aufgelöst werden. Lautet die Eingabe "Wir brauchen noch einen Termin" ohne prosodischen Akzent auf "noch", so übersetzt Verbmobil mit "We still need a date". Wird "noch" jedoch betont, so wählt Verbmobil aufgrund der anderen Satzbedeutung die Übersetzung "We need another appointment". Ohne Weltwissen über den Gesprächsgegenstand ist eine Übersetzung oft nicht möglich. Die Transferregeln von Verbmobil müssen daher in Sortentests auf Wissen zurückgreifen, das in einer
Verbmobil übersetzt ganze Sätze im Gegensatz zu konventionellen Systemen aber kontextabhängig. Für die Eingabe "Wie wäre es am Montag? Geht es bei Ihnen?" liefert Verbmobil die Übersetzung: "How about Monday? Is it possible for you?". Lautet der erste Satz jedoch "Wo können wir uns treffen?" übersetzt Verbmobil "Geht es bei Ihnen?" korrekt als "Do we meet at your place?" Dies konnte nur erreicht werden, indem der Übersetzungsprozess Abhängigkeiten von vorangehenden Sätzen berücksichtigt. Außerdem wird in Verbmobil u. a. mithilfe von neuronalen Netzen versucht, den Stimmcharakter des jeweiligen Sprechers auch bei der automatisch erzeugten Übersetzung nachzubilden, so dass nicht etwa die deutsche Eingabe einer Frauenstimme in der englischen Übersetzung als eine tiefe Männerstimme ertönt.
Verbmobil – Systeme der Phase 1
Das erste integrierte System, der sog. Verbmobil-Demonstrator, wurde 1995 während der CeBIT von Bundesforschungsminister Dr. Jürgen Rüttgers der Öffentlichkeit vorgestellt. Der Verbmobil-Demonstrator (Umfang 1292 Wörter) erkennt gesprochene deutsche Eingaben aus dem Bereich der Terminverhandlung, analysiert sie, übersetzt sie und äußert die englische Übersetzung. Der Verbmobil-Forschungsprototyp 1.0 (Umfang 2461 Wörter), der auf der CeBIT 1997 vorgestellt wurde, erkennt auch japanische Eingaben, um sie ins Englische zu übersetzen, und kann auch auf Deutsch Klärungsdialoge mit dem Benutzer führen. Für die erste Projektphase wurden bis Ende 1996 64,9 Millionen DM Fördermittel des BMBF eingeplant. Zusätzlich brachten die Industriepartner 31 Millionen DM auf. Durch die gezielte Zusammenführung aller Wissensträger aus Wissenschaft und Industrie ist bereits in der ersten Phase ein sehr wirkungsvoller Technologietransfer gelungen, der zu innovativen Produktlösungen bei den im Projekt beteiligten Unternehmen u. a. in den Bereichen Diktiersysteme, telephonische Informationssysteme und Freisprecheinrichtungen sowie der Sprachbedienung im Fahrzeug geführt hat. Die durch Verbmobil erlangte internationale Spitzenstellung im Bereich der Sprachtechnologie wurde inzwischen von den Projektpartnern auch durch mehrere Patente gesichert. Nach der erfolgreichen Abnahme des Verbmobil-Forschungsprototyps im Oktober 1996 bewilligte das BMBF für die zweite Phase (1997 - 2000) 50,2 Mio. DM; die Industriepartner stellen 20,4 Mio. DM an Eigenmitteln zur Verfügung. In der zweiten Phase wird Verbmobil auf einem zentralen Sprachserver implementiert (Umfang ca. 10000 Wörter für Deutsch-Englisch und 2500 Wörter für Deutsch-Japanisch), der über ISDN-Telephone, ATM-basierte Telekooperationsdienste oder GSM-Mobilfunk in Anspruch genommen werden kann. Dieser Sprachserver identifiziert die Eingabesprache und übernimmt die Spracherkennungs-, Übersetzungs- und Sprachgenerierungsleistung. Da mehrere Nutzer die Übersetzungsdienstleistung gleichzeitig in Anspruch nehmen können, werden bei dem Sprachserverkonzept parallele Kanäle vorgesehen. Verbmobil wird dadurch auch in mehrsprachigen Telekonferenzen mit mehr als zwei Partnern eingesetzt werden können (Multiparty-Situation).
Der Forschungsprototyp von Verbmobil
Alle technischen Ziele der ersten Phase von Verbmobil wurden voll erreicht und in einem Forschungsprototypen realisiert: 1. Erkennung fließend gesprochener Spontansprache für Deutsch, Japanisch und Englisch über Nahbesprechungsmikrophon 2. Wortschatz von ca. 2500 Wörtern für die Übersetzungrichtung Deutsch nach Englisch 3. Sprecheradaptives System mit sprecherunabhängigem Kern 4. Linguistisch fundierte deutsche Basisgrammatik für Spontansprache mit tiefer und flacher semantischer Analyse 5. Gesprochene Klärungsdialoge zwischen dem Benutzer und dem Verbmobil- System bei Spracherkennungs- und Verstehensproblemen 6. Semantischer Transfer für Deutsch -Englisch und Japanisch - Englisch 7. Sprachgenerierung für Englisch und für deutsche Paraphrasen 8. mehr als 70% approximativ korrekte Übersetzungen bei der End-to-End Evaluation in der Domäne Terminverhandlung 9. Reine Softwarelösung für alle Module auf Standardhardware 10. Netto-Verarbeitungszeit < sechsfache Echtzeit, bezogen auf die Länge des Eingabe-Sprachsignals Wie die Architekturübersicht in Fig. 1 zeigt, wurde Verbmobil als hochgradig nebenläufiges System nach dem Multiagenten-Prinzip mit zahlreichen Kommunikationsschnittstellen zwischen den Verarbeitungsmodulen vollständig Objekt orientiert realisiert. Die Benutzeroberfläche, durch die auch der Verarbeitungsablauf visualisiert wird, zeigt nur die Hauptmodule der insgesamt 43 Systemkomponenten.