Maschinelle Übersetzung: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
 
(14 dazwischenliegende Versionen von 6 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
 +
[[category:Informationslinguistik]]
 
== Definition ==
 
== Definition ==
  
Unter Maschineller Übersetzung (MÜ) versteht man zunächst die Übersetzung natürlicher Sprache durch einen Computer.
+
[[definition::Unter Maschineller Übersetzung (MÜ) versteht man die Übersetzung natürlicher Sprache durch einen Computer.]]
  
 
In den Anfangszeiten der MÜ-Forschung ist der so genannte FAHQT-Anspruch (fully automated high quality translation) entstanden.
 
In den Anfangszeiten der MÜ-Forschung ist der so genannte FAHQT-Anspruch (fully automated high quality translation) entstanden.
Zeile 7: Zeile 8:
 
Ein Pionier der MÜ-Forschung, [[Warren Weaver]], formulierte diesen Anspruch folgendermaßen:
 
Ein Pionier der MÜ-Forschung, [[Warren Weaver]], formulierte diesen Anspruch folgendermaßen:
 
   
 
   
''“Füttere einen Computer mit einem Text in einer Sprache (QS, für Quellsprache) und fertige mit Hilfe eines Computerprogramms einen Text in einer anderen Sprache (ZS, für Zielsprache) in einer solchen Weise an, dass der ZS Text die gleiche Bedeutung wie der QS Text hat
+
''“Füttere einen Computer mit einem Text in einer Sprache (QS, für Quellsprache) und fertige mit Hilfe eines Computerprogramms einen Text in einer anderen Sprache (ZS, für Zielsprache) in einer solchen Weise an, dass der ZS Text die gleiche Bedeutung wie der QS Text hat?''
 +
 
 +
Aufgrund vieler schwerwiegender Probleme, die das Forschungsgebiet der Maschinellen Übersetzung aufwirft, hat man diesen Anspruch heute allerdings zugunsten einer computergestützen Übersetzung aufgegeben.
 +
 
 +
== Geschichte und Entwicklung ==
 +
 
 +
'''30er Jahre'''
 +
Der Franzose G. Artsrouni und der Russe P.P. Smirnov Trajanski entwickeln unabhängig voneinander Maschinen, die in der Lage waren, einen maschinellen Vergleich verschiedener Lexika vorzunehmen. Das "Gedächtnis" der Maschine basierte auf photoelektrischen Elementen.
 +
 
 +
'''40er Jahre'''
 +
Hintergrund für die ersten Forschungen im Bereich der MÜ waren u. a.
 +
- die Entwicklung des ersten Computers (Mark 1) an der Universität Harvard
 +
- eine explosionsartige Vergrößerung neuer Fachliteratur. Damals war vor allem die Verfügbarkeit von internationaler Fachinformation von Interesse, insbesondere Aufsätze in russischen Zeitschriften.
 +
- der Wunsch nach einer Effizienzsteigerung von intellektueller Übersetzung (z.B. durch automatische Wörterbücher)
 +
- der Zusammenhang zwischen internationaler Kommunikation und Friedenssicherung. Diesbezüglich wurde die Forschung durch das Militär vorangetrieben
 +
 
 +
Erste Lösungsansätze zur Realisierung eines MÜ- Systems sah man damals in der Erfolgen der Kryptographie während des Zweiten Weltkrieges. Übersetzung wurde als eine Art des "Codeknackens" verstanden. Warren Weaver, der 1947 zu diesem Thema einen Dialog mit dem [[Kybernetik]]er Norbert Wiener führte schrieb "When I look at an article in Russion, I Say 'This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode'"
 +
Demnach bestand die erste Idee darin die kyrillischen Zeichen zunächst in lateinische umzuwandeln.
 +
Im Jahre 1949 veröffentlichte Warren Weaver dann ein strategisches Dokument mit theoretischen und methodologischen Ansätzen zum Thema MÜ, und verschickte 200 Kopien an Personen, die ein Interesse an einer solchen Technologie haben könnten.
 +
Das Dokument erregte ein hohes wissenschaftliches und öffentliches Interesse, obwohl sicherlich auch einige der darin enthaltenen Ideen schnell als abwegig eingestuft wurden. Während sich 1948 nur ein Team an der Universität London mit dem Thema beschäftigte, stieg die Anzahl der Forschungen vor allem in den USA nach diesem Vorstoß enorm.
 +
Das sog. Weaver Memorandum wird als der Startschuss zur MÜ Forschung bezeichnet.
 +
 
 +
'''50er Jahre'''
 +
Die erste wissenschaftliche Konferenz fand in Georgetown statt. Bei einem Übersetzungsexperiment sollten 50 russische Sätze aus dem Bereich Chemie übersetzt werden. Das damalige Übersetzungsprogramm  enthielt 250 Wörter und eine einfache Grammatik mit sechs Regeln. Das Ergebnis des Experiments war von adäquater Qualität und wurde von der Öffentlichkeit und von Sponsoren entsprechend honoriert. Nach dem Erfolg der Konferenz fand in den folgenden Jahren einer weiterer Wachstum der MÜ statt.
 +
 
 +
'''50er und 60er Jahre'''
 +
Nach den enthusiastischen Anfängen der MÜ-Forschung folgte 1966 durch den sog. ALPAC Report Ernüchterung. Yehoshua Bar-Hillel, ein früher Pionier der MÜ, kritisierte in seiner "Critique of contemporary MT research" die bisherigen Ergebnisse und vor allem die hochgesteckten Zielvorstellungen Forschung.
 +
Als Symptome seiner Kritik sah er u .a.
 +
- Die Qualität der Übersetzung habe sich in den letzten Jahren nicht signifikant verbessert und sei qualitativ schlechter als Humanübersetzung
 +
- Die damalige Computertechnik sei noch nicht weit genug fortgeschritten (und man sah auch wenig Potenzial zur Weiterentwicklung)
 +
- Für das Kontextproblem, also die verschiedenartige Bedeutung gleicher Wörter je nach Kontext, gab es zum damaligen Zeitpunkt keine Lösung.
 +
 
 +
Bar-Hillel stellte insgesamt fest, das die Komplexität natürlicher Sprache in der Vergangenheit unterschätzt wurde, und dass der FAHQT kein realistisches Ziel sei. Stattdessen schlug er eine Kombination von MÜ und menschlichem post-editing vor, was bereits in vielen Projekten erfolgreich angewendet wurde. Des Weiteren forderte er einen Neustart der Forschung, diesmal unter einer angemessenen Berücksichtigung der Linguistik.
 +
 
 +
Die Kritik des reputierten Forschers führte zu einem Rückgang der Unterstützung für die MÜ-Foschung. In den USA kam sie zu einem regelrechten Stillstand. In der Sovietunion, Kanada, Deutschland, Frankreich und Italien wurde die Forschung allerdings fortgesetzt.
 +
 
 +
'''Die Folgenden 15 Jahre...'''
 +
brachten dann tatsächlich auch erste relevante Anwendungen zu Tage. Mit TAUM Meteo gelang es der Universität Montreal ein Programm zu entwickeln, das die Wetterberichte in dem zweisprachigen Land von Englisch nach Französisch übersetzten konnte. Das Systran-MÜ-Programm, welches ursprünglich für Apollo-Soyuz Weltraummissionen entwickelt wurde, fand als offizielles Übersetzungsprogramm bei der European Economic Community (EEC) Anwendung.
 +
 
 +
'''1975 - Ein Revival'''
 +
Im Zuge des [[Eurotra]] Projektes sollten die Möglichkeiten der MÜ auf alle EEC Sprachen ausgeweitet werden. Gleichzeitig gab es in Japan industrielle Anstrengungen, die MÜ wiederzubeleben, worauf hin das Revival sich auch auf die USA übertrug. Bald gab es wieder Forschungsgruppen, Konferenzen und vor allem auch Sponsoren.
 +
Der neue Optimismus basierte in erster Linie auf Fortschritten in Wissenschaft und Technik. Höhere Prozessorgeschwindigkeiten, bessere Speicherkapazitäten, high level Programmiersprachen, sowie Forschungsergebnisse aus der Computerlinguistik eröffneten neue Möglichkeiten.
 +
Weiterhin hatte sich das höhere Maß an Realitätsnähe, was die Zielsetzung der Forschung angeht, als produktiv erwiesen.
 +
 
 +
'''80er Jahre'''
 +
Die ersten MÜ-System wie z.B Systran werden kommerziell. Öffentliche Institutionen und internationale Konzerne benötigen in immer stärkerem Maße elektronische Hilfen zur schnellen und kostengünstigen Bewältigung ihres steigenden Übersetzungsvolumens. Siemens entwickelt im Zuge dessen ihr MÜ-System [[METAL]].
 +
Auch Universitäten, Forschungsinstitute, aber auch Journalisten sind in zunehmendem Maße auf den weltweiten Zugang von wissenschaftlichen Informationen und Fachinformation angewiesen.
 +
 
 +
'''90er Jahre und heute'''
 +
 
 +
Mittlerweile gibt es viel "günstige" MÜ-System und sogar kostenlose Online-Übersetzungsdienste. diese sind zwar oft linguistisch nicht empfehlenswert, da es sich oft um abgespeckte und alte Versionen von kommerziellen Programmen handelt, aber sie eigenen sich durchaus für "quick & dirty" Übersetzungen.
 +
Umfassende Übersetzungssysteme mit umfangreichen Wörterbüchern & syntaktischen Informationen sind ebenfalls erhältlich, aber stellen noch immer einen erheblichen Kostenfaktor vor allem für den privaten Gebrauch dar.
 +
Bewährt hat sich der Einsatz von MÜ-Systemen in kontrollierten, domainspezifischen Sprachen.
 +
Insgesamt ist der Nutzen für MÜ heute immer noch der Gleiche. Durch viele neuen Medien, die eine weltweite Kommunikation ermöglichen, ist der Nutzen sogar heute noch größer einzuschätzen.
 +
 
 +
== SUSY - Das Saarbrücker Übersetzungssystem ==
 +
 
 +
Während des MÜ-Revivals in den Siebziger Jahren entwickelte die Universität des Saarlandes mit SUSY  [http://is.uni-sb.de/projekte/sonstige/natlangs/susytest.php] ein Programm, welches in der Lage ist, die Sprachpaare Russisch/Deutsch, Deutsch/Englisch und Deutsch/Französisch zu übersetzen, wobei auch weitere Wörterbücher, z.B. Esperanto für das System entwickelt wurden.
 +
 
 +
SUSY verstand sich als ein CAT Programm, welches in der HAMT und in der CAHT eingesetzt wurde (siehe Methoden der Maschinellen Übersetzung). Dabei wurden beispielsweise Titel von wissenschaftlichen Schriften vom Computer übersetzt und von einem Menschen nachbearbeitet, oder es wurden Abstracts von einem Humanübersetzer übersetzt, wobei SUSY aus einem Pool von 350.000 Fachtermini beim schnellen Finden des richtigen Terminus behilflich war.
 +
 
 +
Nach ersten konzeptionellen Ideen in den 60er Jahren begann die Forschung an SUSY 1972. Anfang der 80er gab es erste anwendungsfähige Versionen. Zwar fand das Saarbrücker Projekt internationale Beachtung, wurde aber trotz angedachter Einsatzmöglichen (z.B. im Bund) und Kooperationen (z.B. mit Siemens) nicht kommerziell eingesetzt.
 +
 
 +
SUSY Übersetzungen bestehen zunächst aus drei Schritten:
 +
 
 +
- Analyse
 +
- Transfer
 +
- Synthese
 +
 
 +
Jeder dieser Schritte wird dann wieder unterteilt in zahlreiche Zwischenschritte. So ist bspw. das LESEN Modul im ersten Analyse Schritt verantwortlich für das Einlesen des Textes von dem Terminal und dem Ermitteln der Satzgrenzen. Das Besondere an SUSY ist, dass die einzelnen Schritte des Übersetzungsvorgangs aufrufbar, und somit auch analysierbar sind.
 +
 
 +
== Maschinelle Übersetzung - eine interdisziplinäre Hybridwissenschaft ==
 +
Zwar gibt es mit der Computerlinguistik heutzutage ein einzelnes Fach, welches sich schwerpunktmäßig mit dem Übersetzen natürlicher Sprache durch Computer beschäftigt, aber sowohl in seinen Wurzeln als auch in seinen verschiedenen Ausprägungen, kann das Forschungsgebiet der Maschinellen Übersetzung vielen Wissenschaften und Hilfswissenschaften  zugeordnet werden:
 +
 
 +
- Künstliche Intelligenz: besonders sprachorientierte KI
 +
 
 +
- (theoretische) Linguistik: Übersetzungswissenschaften, Psycholinguistik
 +
 
 +
- Psychologie: Kognitionswissenschaften
 +
 
 +
- Informationswissenschaft (Informationsverarbeitung)
 +
 
 +
- Informatik: Softwaretechnik (Programmiersprachen), Datenbanktechnik
 +
 
 +
 
 +
Weitere Quellen nennen weiterhin bspw. Mathematik (insbesondere statistische Methoden), Neurologie, oder Philosophie.
 +
 
 +
Die Anzahl der vielen wissenschaftlichen Disziplinen, welche sich mit MÜ beschäftigen, ist bereits ein Hinweis auf die Komplexität des Themas. Daraus ergeben sich gleich zwei Probleme, mit denen sich die MÜ-Foschung konfrontiert sieht:
 +
 
 +
- Mangelndes Fachwissen aus anderen Disziplinen
 +
 
 +
- Abhängigkeit von Fortschritten in anderen Disziplinen
 +
 
 +
== Probleme und Potenzial der Maschinellen Übersetzung ==
 +
 
 +
'''Probleme'''
 +
 
 +
Maschinelle Übersetzung ist im Prinzip der Versuch, unvorstellbar komplexe, mentale Prozeduren, die sich in Zusammenarbeit zwischen Gehirn und Bewusstsein in Bruchteilen von Sekunden abspielen, auf ein technisches Verfahren zu reduzieren.
 +
 
 +
Zu diesen Prozeduren gehören u. a. folgende Abläufe
 +
 
 +
- Das Einbetten der Sprache in das so genannte Weltwissen
 +
 
 +
- Wesentliche Informationen von unwesentlichen unterscheiden
 +
 
 +
- Situationskontexte, Ambiguitäten, Homonyme
 +
 
 +
- Individuelle Sprachstile, auch Soziolekte
 +
 
 +
- Mangelnde, oder nicht vorhandene Transferregeln von einer Sprache in die andere
 +
 
 +
- '''Indirektheit der Abbildungen'''
 +
 
 +
[[Bild:indirektheit_abbildungen.png]]
 +
 
 +
Die Komplexität der Maschinellen Übersetzung wird weiterhin durch die Vielzahl der notwenigen Abbildungen verdeutlicht, die benötigt werden, bis ein Text, der seinen Ursprung in der realen Welt hat, einem sprachverarbeitendem System zugeführt wird.
 +
 +
Die natürliche Sprache ist bereits eine Abbildung der realen Welt, und enthält somit bereits viele implizite Informationen, die textuell gar nicht erfasst sind. Die linguistische Theorie ist eine Abbildung der natürlichen Sprache, und ein sprachverabeitendes System ein Abbildung der linguistischen Theorie.
 +
 
 +
Die Schwierigkeit für das sprachverarbeitende System liegt hierbei in der Rückverfolgung auf eine vorhergehende Stufe.
 +
 
 +
So ist beispielsweise die Aussage "Es zieht" für ein sprachverabeitendes System nicht ohne weiteres zuordenbar. Für Personen, die sich jedoch in einem Raum aufhalten, in dem mehrere Fenster geöffnet sind, ist klar, dass unter der Aussage zu verstehen ist, dass in dem Raum ein starker Zugwind herrscht, und evt. Fenster zu schließen sind.
 +
Solche implizite Informationen gehen während der Abbildungen verloren.
 +
 
 +
'''Potenziale'''
 +
 
 +
Trotz der vielen Probleme, die die Forschung im Bereich der MÜ aufwirft, ist der Bedarf nach einer solchen Technik noch immer vorhanden. Aufgrund der neuen Distributionsmöglichkeiten wie dem WWW, oder Email-Technologien hat sich der Wunsch nach kostengünstigen, automatischen Übersetzern sogar noch verstärkt.
 +
 
 +
- Je nach Umfang sind rein intellektuelle Übersetzungen ein finanzielles Problem
 +
 
 +
- Für manche Sprachpaare gibt es keine Humanübersetzer
 +
 
 +
- Die meisten (potential relevanten) Dokumente / Konversationen sind noch immer nicht übersetzt
 +
 
 +
- Texte sind heute digital verfügbar, und somit leichter zu verarbeiten
 +
 
 +
- Politische Interessen (Globalisierung)
 +
 
 +
- Wirtschaftliche Interessen (insbesondere für ostasiatischen Sprachen, aber auch andere exportabhängige Industriestaaten)
 +
 
 +
- Militärische Interessen (z. B. für arabische Sprachen im Zuge der Terrorbekämpfung, früher Russisch)
 +
 
 +
'''Kompromisse'''
 +
 
 +
Vollautomatische, sinnvolle Übersetzungen durch Computer sind in der Realität derzeit noch nicht möglich. Dennoch können heute recht gute Übersetzungsergebnisse erzielt werden, wenn sich der Nutzer eines MÜ-Systems über die Schwächen der Technik im Klaren ist, die entsprechenden Abstriche akzeptiert und Kompromisse eingehen.
 +
 
 +
Solche Kompromisse können sein:
 +
 
 +
- Akzeptanzschweller anpassen:
 +
Wenn ein Text beispielsweise nicht für die Öffentlichkeit gedacht ist, kann es unter eine "quick & dirty", also eine qualitativ schlechte Übersetzung, ausreichen, um eine schnelle Bewertung eines Textes durchzuführen. Wird der vorliegende Text als relevant eingestuft, kann eine hochwertige Übersetzung, z. B. durch einen Humanübersetzer nachgeschaltet werden.
 +
Insgesamt ist die Frage, wie hochwertig ein Text übersetzt werden soll, ein wichtiger Punkt bei der Wahl der richtigen Übersetzungsmethode. Während relativ flaue Übersetzungen heute durch ein elektronisches Übersetzungssystem möglich sind, bedarf es bei einer gewünschten tiefen Übersetzung noch immer den Einsatz eines menschlichen Übersetzers.
 +
 
 +
- Trend zur teilweise automatisierten MÜ:
 +
Gute Ergebnisse erzielt man heute durch den Einsatz von computerunterstützten Übersetzungssystemen. Rechtschreibeprüfung und elektronische Wörterbücher stellen für einen Humanübersetzer heute schon eine sehr große Hilfe dar
 +
 
 +
- Thema einschränken:
 +
Durch die Eingabe einer kontrollierten Sprache mit einem kleinen Wortschatz und einer einfachen Grammatik in ein auf ein spezielles Thema zugeschnittenes MÜ System, sind bessere Ergebnisse erzielbar, als durch den Versuch natürliche Sprache in einem omnipotenten System zu übersetzen.
 +
In eine ähnliche Richtung geht der Vorschlag von Warren Weaver einfache Sublanguages zu erstellen (z. B. basic english), die einem System natürlich-sprachliche Anfragen leichter verständlich zu machen.
 +
Des Weiteren sind zurzeit überhaupt nur technische oder beschreibende Dokumente für die MÜ denkbar. Fiktion, Poesie, Werbung, politische Reden, und ähnliche Texte, würden wieder weitere hochgradig komplexe Probleme aufwerfen.
 +
 
 +
== Methoden der Maschinellen Übersetzung ==
 +
[[Bild:mü1.png]]
 +
 
 +
== Computergestützte Übersetzung ==
 +
 
 +
Maschinelle Übersetzung nach dem FAHQT Anspruch ist zurzeit aus einer Vielzahl von unterschiedlichen Gründen nicht möglich, sodass entsprechende Industrie- und Forschungsstätten ihre Bemühungen auf eine computergestütze Übersetzung verlagert haben. Darunter versteht man eine Mischung aus intellektueller (menschlicher) und maschineller Übersetzungsleistung.
 +
 
 +
Hierbei wird zwischen zwei Methoden unterschieden:
 +
 
 +
'''HAMT''' (human aided machine translation)
 +
 
 +
Ein Computer übernimmt die Übersetzungsleistung, während der Mensch an kritischen Stellen des Übersetzungsprozesses, welche zurzeit von einem Computer nicht leistbar sind, eingreift.
 +
 
 +
- pre-editing (manuelle Vorredaktion):
 +
Man versucht hierbei für den Zieltext eine bessere Qualität zu erreichen, indem ein menschlicher Übersetzer problematische Stellen im Voraus verändert. Mit der Verwendung eines solchen kontrollierten Inputs passt man den Text an die Schwächen des Systems an, indem eventuelle Unklarheiten vor der maschinellen Übersetzungsleistung beseitigt werden.
 +
 
 +
- Interaktivität (halbautomatische Zwischenredaktion):
 +
Das MÜ-Programm fragt automatisch an kritischen Stellen, an denen Ambiguitäten, oder sonstige Unklarheiten auftreten, nach der richtigen Übersetzung. Der Beitrag des Humanübersetzers besteht zum Beispiel darin, aus einer Liste von lexikalischen Alternativen die passende Vokabel auszusuchen.
 +
 
 +
- post-editing (manuelle Nachredaktion)
 +
Bei dieser Variante übernimmt das System die gesamte Übersetzung. Anschließend korrigiert ein menschlicher Übersetzer den vorliegenden Text. Bei dieser Methode kommen allerdings alle Probleme der maschinellen Übersetzung zum tragen, sodass der Humanübersetzer unter Umständen einen Zieltext mit nur sehr schlechter Qualität als Arbeitsgrundlage erhält.
 +
 
 +
'''MAHT''' (machine aided human translation)
 +
 
 +
Hier arbeitet ein gewöhnlicher Humanübersetzer mit der Unterstützung eines Computers. Der Computer stellt bei dieser Methode eine Arbeitserleichterung dar, indem er dem menschlichen Übersetzer automatisierbare Prozesse abnimmt.
 +
 
 +
- Automatic Dictionary LookUup
 +
Darunter Versteht man das automatische Nachschlagen von Terminologien und Vokabeln
 +
 
 +
- Translation Memory
 +
Hierbei erkennt das System automatisch, das eine Textstelle (Textphrase / Textpassage) zu einem früheren Zeitpunkt bereits schon übersetzt wurde und schlägt dem Nutzer die frühere Übersetzung vor.
 +
 
 +
== Relevanz für die [[Fachinformation]] ==
 +
 
 +
Die Relevanz der Maschinellen Übersetzung für den Fachinformationsmarkt wird durch zwei Themen deutlich.
 +
 
 +
'''- die Verteilung von Fachwissen auf dem internationalen Fachinformationsmarkt'''
 +
 
 +
Als ein Maßstab für die Qualität eines Fachartikels wird immer wieder die sog. Zitationshäufigkeit angeführt. Dieser Wert gibt an wie oft ein Artikel in anderen wissenschaftlichen Schriften verwendet wurde. Besonders interessant für den Autor sind hierbei natürlich auch Zitationen seiner Forschung in internationalen Fachartikeln, da sie belegen, dass die eigene Forschung auch jenseits der Landesgrenzen akzeptiert werden.
 +
Die deutsche Sprache wurde allerdings schon seit geraumer Zeit als internationale Wissensschaftssprache durch Englisch abgelöst. Möchte man nun die Akzeptanz der landeseigenen Forschung im Ausland erhöhen, ist es nicht mehr ausreichend seine Artikel in Deutsch zu veröffentlichen. Neben einer englischen Version wären also weitere Übersetzungen für den internationalen Fachinformationsmarkt wünschenswert. Hier kann die MÜ einen wertvollen Beitrag, vor allem in Bezug auf Kostenersparnis leisten.
 +
 
 +
'''- die Wiederauffindbarkeit ([[Information Retrieval]]) von fremdsprachigen relevanten Dokumenten'''
 +
 
 +
Gerade in der Forschung sieht man sich als Informationssuchender mit immer mehr Fachwissen konfrontiert. Man spricht in diesem Zusammenhang von einer [[Veröffentlichungsflut]] oder einer [[Dokumentenflut]]. Neben dieser unübersehbaren Menge an anstehender Literatur (Fachsartikel, Patentschriften, etc.) stellt die Sprachproblematik eine weitere Schwierigkeit bei der Suche nach relevanten Schriften dar.
 +
Beherrscht der Recherchierende die Sprache des Dokuments, bzw. die Indexierungssprache nicht, oder nicht ausreichend, so kann das dazu führen, dass entweder relevante Dokumente erst gar nicht gefunden werden, oder gefundene Dokumente bei näherem hinsehen sich als wertlos erweisen. Im günstigsten Fall beschränkt sich der Schaden auf die Kosten, die bei der Recherche entstanden sind, z.B. für die Nutzung einer [[Datenbank]]. Bedenklicher wird es allerdings, wenn eine gescheiterte Recherche zu Doppelforschung oder zu Problemen im Patentwesen führt.
 +
 
 +
== Literatur ==
 +
 
 +
Kroupa, Zimmerman: Multilinguale Anwendungen der Sprachdatenverarbeitung in Referenz-Informationssystemen. Aus: WILSS, Wolfram; SCHMITZ, Klaus-Dirk (HRSG.) (1987): Maschinelle Übersetzung - Methoden und Werkzeuge, Akten des 3. Int. Kolloquiums des SFB 100. Tübingen: Niemeyer Verlag.
 +
 
 +
Nirenburg, Sergei et al: Machine Translation: A Knowledge-Based Approach. San Mateo: Morgan Kaufmann
 +
 
 +
Schwanke, Martina: Maschinelle Übersetzung - Ein Überblick über Theorie und Praxis. Springer Verlag Berlin Heidelberg. 1991
 +
 
 +
Luckhardt, H.-D. (1987). Der Transfer in der Maschinellen Sprachübersetzung. Tübingen: Niemeyer
 +
 
 +
==Verwandte Begriffe==
 +
 
 +
* [[broader::Informationslinguistik]]
 +
* [[synonymous::Maschinelles Übersetzungssystem]]
 +
* [[related::Automatische Spracherkennung]]

Aktuelle Version vom 29. Januar 2013, 13:22 Uhr

Definition

Unter Maschineller Übersetzung (MÜ) versteht man die Übersetzung natürlicher Sprache durch einen Computer.

In den Anfangszeiten der MÜ-Forschung ist der so genannte FAHQT-Anspruch (fully automated high quality translation) entstanden.

Ein Pionier der MÜ-Forschung, Warren Weaver, formulierte diesen Anspruch folgendermaßen:

“Füttere einen Computer mit einem Text in einer Sprache (QS, für Quellsprache) und fertige mit Hilfe eines Computerprogramms einen Text in einer anderen Sprache (ZS, für Zielsprache) in einer solchen Weise an, dass der ZS Text die gleiche Bedeutung wie der QS Text hat?

Aufgrund vieler schwerwiegender Probleme, die das Forschungsgebiet der Maschinellen Übersetzung aufwirft, hat man diesen Anspruch heute allerdings zugunsten einer computergestützen Übersetzung aufgegeben.

Geschichte und Entwicklung

30er Jahre Der Franzose G. Artsrouni und der Russe P.P. Smirnov Trajanski entwickeln unabhängig voneinander Maschinen, die in der Lage waren, einen maschinellen Vergleich verschiedener Lexika vorzunehmen. Das "Gedächtnis" der Maschine basierte auf photoelektrischen Elementen.

40er Jahre Hintergrund für die ersten Forschungen im Bereich der MÜ waren u. a. - die Entwicklung des ersten Computers (Mark 1) an der Universität Harvard - eine explosionsartige Vergrößerung neuer Fachliteratur. Damals war vor allem die Verfügbarkeit von internationaler Fachinformation von Interesse, insbesondere Aufsätze in russischen Zeitschriften. - der Wunsch nach einer Effizienzsteigerung von intellektueller Übersetzung (z.B. durch automatische Wörterbücher) - der Zusammenhang zwischen internationaler Kommunikation und Friedenssicherung. Diesbezüglich wurde die Forschung durch das Militär vorangetrieben

Erste Lösungsansätze zur Realisierung eines MÜ- Systems sah man damals in der Erfolgen der Kryptographie während des Zweiten Weltkrieges. Übersetzung wurde als eine Art des "Codeknackens" verstanden. Warren Weaver, der 1947 zu diesem Thema einen Dialog mit dem Kybernetiker Norbert Wiener führte schrieb "When I look at an article in Russion, I Say 'This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode'" Demnach bestand die erste Idee darin die kyrillischen Zeichen zunächst in lateinische umzuwandeln. Im Jahre 1949 veröffentlichte Warren Weaver dann ein strategisches Dokument mit theoretischen und methodologischen Ansätzen zum Thema MÜ, und verschickte 200 Kopien an Personen, die ein Interesse an einer solchen Technologie haben könnten. Das Dokument erregte ein hohes wissenschaftliches und öffentliches Interesse, obwohl sicherlich auch einige der darin enthaltenen Ideen schnell als abwegig eingestuft wurden. Während sich 1948 nur ein Team an der Universität London mit dem Thema beschäftigte, stieg die Anzahl der Forschungen vor allem in den USA nach diesem Vorstoß enorm. Das sog. Weaver Memorandum wird als der Startschuss zur MÜ Forschung bezeichnet.

50er Jahre Die erste wissenschaftliche Konferenz fand in Georgetown statt. Bei einem Übersetzungsexperiment sollten 50 russische Sätze aus dem Bereich Chemie übersetzt werden. Das damalige Übersetzungsprogramm enthielt 250 Wörter und eine einfache Grammatik mit sechs Regeln. Das Ergebnis des Experiments war von adäquater Qualität und wurde von der Öffentlichkeit und von Sponsoren entsprechend honoriert. Nach dem Erfolg der Konferenz fand in den folgenden Jahren einer weiterer Wachstum der MÜ statt.

50er und 60er Jahre Nach den enthusiastischen Anfängen der MÜ-Forschung folgte 1966 durch den sog. ALPAC Report Ernüchterung. Yehoshua Bar-Hillel, ein früher Pionier der MÜ, kritisierte in seiner "Critique of contemporary MT research" die bisherigen Ergebnisse und vor allem die hochgesteckten Zielvorstellungen Forschung. Als Symptome seiner Kritik sah er u .a. - Die Qualität der Übersetzung habe sich in den letzten Jahren nicht signifikant verbessert und sei qualitativ schlechter als Humanübersetzung - Die damalige Computertechnik sei noch nicht weit genug fortgeschritten (und man sah auch wenig Potenzial zur Weiterentwicklung) - Für das Kontextproblem, also die verschiedenartige Bedeutung gleicher Wörter je nach Kontext, gab es zum damaligen Zeitpunkt keine Lösung.

Bar-Hillel stellte insgesamt fest, das die Komplexität natürlicher Sprache in der Vergangenheit unterschätzt wurde, und dass der FAHQT kein realistisches Ziel sei. Stattdessen schlug er eine Kombination von MÜ und menschlichem post-editing vor, was bereits in vielen Projekten erfolgreich angewendet wurde. Des Weiteren forderte er einen Neustart der Forschung, diesmal unter einer angemessenen Berücksichtigung der Linguistik.

Die Kritik des reputierten Forschers führte zu einem Rückgang der Unterstützung für die MÜ-Foschung. In den USA kam sie zu einem regelrechten Stillstand. In der Sovietunion, Kanada, Deutschland, Frankreich und Italien wurde die Forschung allerdings fortgesetzt.

Die Folgenden 15 Jahre... brachten dann tatsächlich auch erste relevante Anwendungen zu Tage. Mit TAUM Meteo gelang es der Universität Montreal ein Programm zu entwickeln, das die Wetterberichte in dem zweisprachigen Land von Englisch nach Französisch übersetzten konnte. Das Systran-MÜ-Programm, welches ursprünglich für Apollo-Soyuz Weltraummissionen entwickelt wurde, fand als offizielles Übersetzungsprogramm bei der European Economic Community (EEC) Anwendung.

1975 - Ein Revival Im Zuge des Eurotra Projektes sollten die Möglichkeiten der MÜ auf alle EEC Sprachen ausgeweitet werden. Gleichzeitig gab es in Japan industrielle Anstrengungen, die MÜ wiederzubeleben, worauf hin das Revival sich auch auf die USA übertrug. Bald gab es wieder Forschungsgruppen, Konferenzen und vor allem auch Sponsoren. Der neue Optimismus basierte in erster Linie auf Fortschritten in Wissenschaft und Technik. Höhere Prozessorgeschwindigkeiten, bessere Speicherkapazitäten, high level Programmiersprachen, sowie Forschungsergebnisse aus der Computerlinguistik eröffneten neue Möglichkeiten. Weiterhin hatte sich das höhere Maß an Realitätsnähe, was die Zielsetzung der Forschung angeht, als produktiv erwiesen.

80er Jahre Die ersten MÜ-System wie z.B Systran werden kommerziell. Öffentliche Institutionen und internationale Konzerne benötigen in immer stärkerem Maße elektronische Hilfen zur schnellen und kostengünstigen Bewältigung ihres steigenden Übersetzungsvolumens. Siemens entwickelt im Zuge dessen ihr MÜ-System METAL. Auch Universitäten, Forschungsinstitute, aber auch Journalisten sind in zunehmendem Maße auf den weltweiten Zugang von wissenschaftlichen Informationen und Fachinformation angewiesen.

90er Jahre und heute

Mittlerweile gibt es viel "günstige" MÜ-System und sogar kostenlose Online-Übersetzungsdienste. diese sind zwar oft linguistisch nicht empfehlenswert, da es sich oft um abgespeckte und alte Versionen von kommerziellen Programmen handelt, aber sie eigenen sich durchaus für "quick & dirty" Übersetzungen. Umfassende Übersetzungssysteme mit umfangreichen Wörterbüchern & syntaktischen Informationen sind ebenfalls erhältlich, aber stellen noch immer einen erheblichen Kostenfaktor vor allem für den privaten Gebrauch dar. Bewährt hat sich der Einsatz von MÜ-Systemen in kontrollierten, domainspezifischen Sprachen. Insgesamt ist der Nutzen für MÜ heute immer noch der Gleiche. Durch viele neuen Medien, die eine weltweite Kommunikation ermöglichen, ist der Nutzen sogar heute noch größer einzuschätzen.

SUSY - Das Saarbrücker Übersetzungssystem

Während des MÜ-Revivals in den Siebziger Jahren entwickelte die Universität des Saarlandes mit SUSY [1] ein Programm, welches in der Lage ist, die Sprachpaare Russisch/Deutsch, Deutsch/Englisch und Deutsch/Französisch zu übersetzen, wobei auch weitere Wörterbücher, z.B. Esperanto für das System entwickelt wurden.

SUSY verstand sich als ein CAT Programm, welches in der HAMT und in der CAHT eingesetzt wurde (siehe Methoden der Maschinellen Übersetzung). Dabei wurden beispielsweise Titel von wissenschaftlichen Schriften vom Computer übersetzt und von einem Menschen nachbearbeitet, oder es wurden Abstracts von einem Humanübersetzer übersetzt, wobei SUSY aus einem Pool von 350.000 Fachtermini beim schnellen Finden des richtigen Terminus behilflich war.

Nach ersten konzeptionellen Ideen in den 60er Jahren begann die Forschung an SUSY 1972. Anfang der 80er gab es erste anwendungsfähige Versionen. Zwar fand das Saarbrücker Projekt internationale Beachtung, wurde aber trotz angedachter Einsatzmöglichen (z.B. im Bund) und Kooperationen (z.B. mit Siemens) nicht kommerziell eingesetzt.

SUSY Übersetzungen bestehen zunächst aus drei Schritten:

- Analyse - Transfer - Synthese

Jeder dieser Schritte wird dann wieder unterteilt in zahlreiche Zwischenschritte. So ist bspw. das LESEN Modul im ersten Analyse Schritt verantwortlich für das Einlesen des Textes von dem Terminal und dem Ermitteln der Satzgrenzen. Das Besondere an SUSY ist, dass die einzelnen Schritte des Übersetzungsvorgangs aufrufbar, und somit auch analysierbar sind.

Maschinelle Übersetzung - eine interdisziplinäre Hybridwissenschaft

Zwar gibt es mit der Computerlinguistik heutzutage ein einzelnes Fach, welches sich schwerpunktmäßig mit dem Übersetzen natürlicher Sprache durch Computer beschäftigt, aber sowohl in seinen Wurzeln als auch in seinen verschiedenen Ausprägungen, kann das Forschungsgebiet der Maschinellen Übersetzung vielen Wissenschaften und Hilfswissenschaften zugeordnet werden:

- Künstliche Intelligenz: besonders sprachorientierte KI

- (theoretische) Linguistik: Übersetzungswissenschaften, Psycholinguistik

- Psychologie: Kognitionswissenschaften

- Informationswissenschaft (Informationsverarbeitung)

- Informatik: Softwaretechnik (Programmiersprachen), Datenbanktechnik


Weitere Quellen nennen weiterhin bspw. Mathematik (insbesondere statistische Methoden), Neurologie, oder Philosophie.

Die Anzahl der vielen wissenschaftlichen Disziplinen, welche sich mit MÜ beschäftigen, ist bereits ein Hinweis auf die Komplexität des Themas. Daraus ergeben sich gleich zwei Probleme, mit denen sich die MÜ-Foschung konfrontiert sieht:

- Mangelndes Fachwissen aus anderen Disziplinen

- Abhängigkeit von Fortschritten in anderen Disziplinen

Probleme und Potenzial der Maschinellen Übersetzung

Probleme

Maschinelle Übersetzung ist im Prinzip der Versuch, unvorstellbar komplexe, mentale Prozeduren, die sich in Zusammenarbeit zwischen Gehirn und Bewusstsein in Bruchteilen von Sekunden abspielen, auf ein technisches Verfahren zu reduzieren.

Zu diesen Prozeduren gehören u. a. folgende Abläufe

- Das Einbetten der Sprache in das so genannte Weltwissen

- Wesentliche Informationen von unwesentlichen unterscheiden

- Situationskontexte, Ambiguitäten, Homonyme

- Individuelle Sprachstile, auch Soziolekte

- Mangelnde, oder nicht vorhandene Transferregeln von einer Sprache in die andere

- Indirektheit der Abbildungen

Indirektheit abbildungen.png

Die Komplexität der Maschinellen Übersetzung wird weiterhin durch die Vielzahl der notwenigen Abbildungen verdeutlicht, die benötigt werden, bis ein Text, der seinen Ursprung in der realen Welt hat, einem sprachverarbeitendem System zugeführt wird.

Die natürliche Sprache ist bereits eine Abbildung der realen Welt, und enthält somit bereits viele implizite Informationen, die textuell gar nicht erfasst sind. Die linguistische Theorie ist eine Abbildung der natürlichen Sprache, und ein sprachverabeitendes System ein Abbildung der linguistischen Theorie.

Die Schwierigkeit für das sprachverarbeitende System liegt hierbei in der Rückverfolgung auf eine vorhergehende Stufe.

So ist beispielsweise die Aussage "Es zieht" für ein sprachverabeitendes System nicht ohne weiteres zuordenbar. Für Personen, die sich jedoch in einem Raum aufhalten, in dem mehrere Fenster geöffnet sind, ist klar, dass unter der Aussage zu verstehen ist, dass in dem Raum ein starker Zugwind herrscht, und evt. Fenster zu schließen sind. Solche implizite Informationen gehen während der Abbildungen verloren.

Potenziale

Trotz der vielen Probleme, die die Forschung im Bereich der MÜ aufwirft, ist der Bedarf nach einer solchen Technik noch immer vorhanden. Aufgrund der neuen Distributionsmöglichkeiten wie dem WWW, oder Email-Technologien hat sich der Wunsch nach kostengünstigen, automatischen Übersetzern sogar noch verstärkt.

- Je nach Umfang sind rein intellektuelle Übersetzungen ein finanzielles Problem

- Für manche Sprachpaare gibt es keine Humanübersetzer

- Die meisten (potential relevanten) Dokumente / Konversationen sind noch immer nicht übersetzt

- Texte sind heute digital verfügbar, und somit leichter zu verarbeiten

- Politische Interessen (Globalisierung)

- Wirtschaftliche Interessen (insbesondere für ostasiatischen Sprachen, aber auch andere exportabhängige Industriestaaten)

- Militärische Interessen (z. B. für arabische Sprachen im Zuge der Terrorbekämpfung, früher Russisch)

Kompromisse

Vollautomatische, sinnvolle Übersetzungen durch Computer sind in der Realität derzeit noch nicht möglich. Dennoch können heute recht gute Übersetzungsergebnisse erzielt werden, wenn sich der Nutzer eines MÜ-Systems über die Schwächen der Technik im Klaren ist, die entsprechenden Abstriche akzeptiert und Kompromisse eingehen.

Solche Kompromisse können sein:

- Akzeptanzschweller anpassen: Wenn ein Text beispielsweise nicht für die Öffentlichkeit gedacht ist, kann es unter eine "quick & dirty", also eine qualitativ schlechte Übersetzung, ausreichen, um eine schnelle Bewertung eines Textes durchzuführen. Wird der vorliegende Text als relevant eingestuft, kann eine hochwertige Übersetzung, z. B. durch einen Humanübersetzer nachgeschaltet werden. Insgesamt ist die Frage, wie hochwertig ein Text übersetzt werden soll, ein wichtiger Punkt bei der Wahl der richtigen Übersetzungsmethode. Während relativ flaue Übersetzungen heute durch ein elektronisches Übersetzungssystem möglich sind, bedarf es bei einer gewünschten tiefen Übersetzung noch immer den Einsatz eines menschlichen Übersetzers.

- Trend zur teilweise automatisierten MÜ: Gute Ergebnisse erzielt man heute durch den Einsatz von computerunterstützten Übersetzungssystemen. Rechtschreibeprüfung und elektronische Wörterbücher stellen für einen Humanübersetzer heute schon eine sehr große Hilfe dar

- Thema einschränken: Durch die Eingabe einer kontrollierten Sprache mit einem kleinen Wortschatz und einer einfachen Grammatik in ein auf ein spezielles Thema zugeschnittenes MÜ System, sind bessere Ergebnisse erzielbar, als durch den Versuch natürliche Sprache in einem omnipotenten System zu übersetzen. In eine ähnliche Richtung geht der Vorschlag von Warren Weaver einfache Sublanguages zu erstellen (z. B. basic english), die einem System natürlich-sprachliche Anfragen leichter verständlich zu machen. Des Weiteren sind zurzeit überhaupt nur technische oder beschreibende Dokumente für die MÜ denkbar. Fiktion, Poesie, Werbung, politische Reden, und ähnliche Texte, würden wieder weitere hochgradig komplexe Probleme aufwerfen.

Methoden der Maschinellen Übersetzung

Mü1.png

Computergestützte Übersetzung

Maschinelle Übersetzung nach dem FAHQT Anspruch ist zurzeit aus einer Vielzahl von unterschiedlichen Gründen nicht möglich, sodass entsprechende Industrie- und Forschungsstätten ihre Bemühungen auf eine computergestütze Übersetzung verlagert haben. Darunter versteht man eine Mischung aus intellektueller (menschlicher) und maschineller Übersetzungsleistung.

Hierbei wird zwischen zwei Methoden unterschieden:

HAMT (human aided machine translation)

Ein Computer übernimmt die Übersetzungsleistung, während der Mensch an kritischen Stellen des Übersetzungsprozesses, welche zurzeit von einem Computer nicht leistbar sind, eingreift.

- pre-editing (manuelle Vorredaktion): Man versucht hierbei für den Zieltext eine bessere Qualität zu erreichen, indem ein menschlicher Übersetzer problematische Stellen im Voraus verändert. Mit der Verwendung eines solchen kontrollierten Inputs passt man den Text an die Schwächen des Systems an, indem eventuelle Unklarheiten vor der maschinellen Übersetzungsleistung beseitigt werden.

- Interaktivität (halbautomatische Zwischenredaktion): Das MÜ-Programm fragt automatisch an kritischen Stellen, an denen Ambiguitäten, oder sonstige Unklarheiten auftreten, nach der richtigen Übersetzung. Der Beitrag des Humanübersetzers besteht zum Beispiel darin, aus einer Liste von lexikalischen Alternativen die passende Vokabel auszusuchen.

- post-editing (manuelle Nachredaktion) Bei dieser Variante übernimmt das System die gesamte Übersetzung. Anschließend korrigiert ein menschlicher Übersetzer den vorliegenden Text. Bei dieser Methode kommen allerdings alle Probleme der maschinellen Übersetzung zum tragen, sodass der Humanübersetzer unter Umständen einen Zieltext mit nur sehr schlechter Qualität als Arbeitsgrundlage erhält.

MAHT (machine aided human translation)

Hier arbeitet ein gewöhnlicher Humanübersetzer mit der Unterstützung eines Computers. Der Computer stellt bei dieser Methode eine Arbeitserleichterung dar, indem er dem menschlichen Übersetzer automatisierbare Prozesse abnimmt.

- Automatic Dictionary LookUup Darunter Versteht man das automatische Nachschlagen von Terminologien und Vokabeln

- Translation Memory Hierbei erkennt das System automatisch, das eine Textstelle (Textphrase / Textpassage) zu einem früheren Zeitpunkt bereits schon übersetzt wurde und schlägt dem Nutzer die frühere Übersetzung vor.

Relevanz für die Fachinformation

Die Relevanz der Maschinellen Übersetzung für den Fachinformationsmarkt wird durch zwei Themen deutlich.

- die Verteilung von Fachwissen auf dem internationalen Fachinformationsmarkt

Als ein Maßstab für die Qualität eines Fachartikels wird immer wieder die sog. Zitationshäufigkeit angeführt. Dieser Wert gibt an wie oft ein Artikel in anderen wissenschaftlichen Schriften verwendet wurde. Besonders interessant für den Autor sind hierbei natürlich auch Zitationen seiner Forschung in internationalen Fachartikeln, da sie belegen, dass die eigene Forschung auch jenseits der Landesgrenzen akzeptiert werden. Die deutsche Sprache wurde allerdings schon seit geraumer Zeit als internationale Wissensschaftssprache durch Englisch abgelöst. Möchte man nun die Akzeptanz der landeseigenen Forschung im Ausland erhöhen, ist es nicht mehr ausreichend seine Artikel in Deutsch zu veröffentlichen. Neben einer englischen Version wären also weitere Übersetzungen für den internationalen Fachinformationsmarkt wünschenswert. Hier kann die MÜ einen wertvollen Beitrag, vor allem in Bezug auf Kostenersparnis leisten.

- die Wiederauffindbarkeit (Information Retrieval) von fremdsprachigen relevanten Dokumenten

Gerade in der Forschung sieht man sich als Informationssuchender mit immer mehr Fachwissen konfrontiert. Man spricht in diesem Zusammenhang von einer Veröffentlichungsflut oder einer Dokumentenflut. Neben dieser unübersehbaren Menge an anstehender Literatur (Fachsartikel, Patentschriften, etc.) stellt die Sprachproblematik eine weitere Schwierigkeit bei der Suche nach relevanten Schriften dar. Beherrscht der Recherchierende die Sprache des Dokuments, bzw. die Indexierungssprache nicht, oder nicht ausreichend, so kann das dazu führen, dass entweder relevante Dokumente erst gar nicht gefunden werden, oder gefundene Dokumente bei näherem hinsehen sich als wertlos erweisen. Im günstigsten Fall beschränkt sich der Schaden auf die Kosten, die bei der Recherche entstanden sind, z.B. für die Nutzung einer Datenbank. Bedenklicher wird es allerdings, wenn eine gescheiterte Recherche zu Doppelforschung oder zu Problemen im Patentwesen führt.

Literatur

Kroupa, Zimmerman: Multilinguale Anwendungen der Sprachdatenverarbeitung in Referenz-Informationssystemen. Aus: WILSS, Wolfram; SCHMITZ, Klaus-Dirk (HRSG.) (1987): Maschinelle Übersetzung - Methoden und Werkzeuge, Akten des 3. Int. Kolloquiums des SFB 100. Tübingen: Niemeyer Verlag.

Nirenburg, Sergei et al: Machine Translation: A Knowledge-Based Approach. San Mateo: Morgan Kaufmann

Schwanke, Martina: Maschinelle Übersetzung - Ein Überblick über Theorie und Praxis. Springer Verlag Berlin Heidelberg. 1991

Luckhardt, H.-D. (1987). Der Transfer in der Maschinellen Sprachübersetzung. Tübingen: Niemeyer

Verwandte Begriffe

… weitere Daten zur Seite „Maschinelle Übersetzung
Unter Maschineller Übersetzung (MÜ) versteht man die Übersetzung natürlicher Sprache durch einen Computer. +