Maschinelle Übersetzung im Wandel - Aaron Matthiesen - E-Book

Maschinelle Übersetzung im Wandel E-Book

Aaron Matthiesen

0,0

Beschreibung

Maschinelle Übersetzung, also die vollautomatische Übersetzung von Texten einer Sprache in eine andere, fasziniert. Forscher suchen seit über 70 Jahren die Lösung für das komplizierte Problem automatischer Übersetzung, die in ihrer Qualität professionelle menschliche Übersetzungen entspricht oder sie übertrifft. Die Forschung der vergangenen Jahrzehnte ist geprägt von euphorischen Visionen und bitteren Niederschlägen, dem Entwickeln, Verwerfen und Neuentwickeln unterschiedlicher Methoden. Seitdem 2016 unter anderem Google und Microsoft erfolgreich die aufstrebende Technologie der künstlichen Intelligenz und selbstlernender Software auf ihre Online-Übersetzungsdienste angewendet haben, ist das Feld von einer neuen Euphorie gepackt. Dieses Buch behandelt die Geschichte und die verschiedenen Ansätze maschineller Übersetzung von 1933 bis heute. Dabei werden typische Probleme der Systeme angesprochen, aber auch aufgezeigt, zu welchen Leistungen KI-Systeme und Deep Learning bereits fähig sind. Außerdem sollfestgestellt werden, ob mit der aktuellen Generation neuronaler Übersetzungssysteme ein neuerlicher Wandel erkennbar ist, ob Software gar Sprache verstehen kann. Dazu wird untersucht, wie gut drei Übersetzungssysteme mit unterschiedlichen sprachlichen Problemfällen wie Mehrdeutigkeiten umgehen können.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 101

Veröffentlichungsjahr: 2017

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Maschinelle Übersetzung im Wandel: Die Auswirkungen von künstlicher Intelligenz auf maschinelle Übersetzungssysteme. Mit einer vergleichenden Untersuchung von Google Translate und Microsoft Translator

Abkürzungsverzeichnis1 Einleitung2 Aufbau der Arbeit3 Definitionen3.1 Künstliche Intelligenz3.2 Maschinelles Lernen3.3 Künstliche neuronale Netze und Deep Learning3.4 Maschinelle Übersetzung4 Geschichtlicher Hintergrund zur Maschinellen Übersetzung4.1 Experimentelle Phase (1933 - 1954)4.2 Optimistische Phase (1954 - 1966)4.3 Phase der Umorientierung (1966 - 1975)4.4 Das Wiederaufleben (1975 - 1989)4.5 Entwicklungen nach 19895 Verschiedene Methoden maschineller Übersetzung5.1 Regelbasierte Übersetzung5.1.1 Direkte Übersetzung5.1.1 Interlingua-basierte Übersetzung5.1.2 Transfer-basierte Übersetzung5.2 Statistische Übersetzung5.3 Beispielbasierte Übersetzung5.4 Neuronale Übersetzung6 Erfolge und Probleme von maschineller Übersetzung 6.1 Vorteilhafte Bedingungen für maschinelle Übersetzung6.2 Fehlerursachen bei maschineller Übersetzung7 Vergleich eines statistischen maschinellen Übersetzungssystems mit zwei neuronalen Systemen7.1 Vorstellung der untersuchten Systeme7.1.1 Microsoft Translator7.1.2 Google Translate7.2 Testszenarien7.3 Testkriterien7.4 Testergebnisse7.4.1 Sätze ohne bewusste Problemsituationen7.4.2 Lexikalische Divergenz7.4.3 Syntaktische Divergenz7.4.4 Lexikalische Ambiguität7.4.5 Strukturelle Ambiguität7.4.6 Referentielle Ambiguität7.4.7 Besonderheiten bei Eigennamen und feststehenden Übersetzungen7.4.8 Idiome und Kollokationen7.4.9 Fehler im Ausgangstext7.5 Auswertung der Ergebnisse8 Ausblick9 Zusammenfassung und Fazit10 LiteraturAnhang

Abkürzungsverzeichnis

Abkürzung

Bedeutung

AI

Artificial Intelligence – Künstliche Intelligenz

ALPAC

Automatic Language Processing Advisory Committee

AT

Ausgangstext

FAHQT

Fully automatic high-quality translation – Vollautomatische Übersetzung in hoher Qualität

FAMT

Fully automatic machine translation – Vollautomatische maschinelle Übersetzung

KI

Künstliche Intelligenz

KNN

Künstliches neuronales Netzwerk

ML

Maschinelles Lernen

Maschinelle Übersetzung

NMÜ

Neuronale maschinelle Übersetzung

RBMÜ

Regelbasierte maschinelle Übersetzung

SMÜ

Statistische maschinelle Übersetzung

ZT

Zieltext

1 Einleitung

Die Bezeichnung „Künstliche Intelligenz“ wurde vor über 60 Jahren auf einer Konferenz von Informatikern geprägt, und bis heute hat die Forschungsdisziplin nicht an Faszination verloren (Görz/Schneeberger/Schmid 2014: 1-3). Dies mag auch darauf zurückzuführen sein, dass die Idee, etwas zu erschaffen, das dem Menschen in seinen geistigen Fähigkeiten gleicht, bis in die Antike zurückreicht. Seit dem Aufkommen von Automaten und ersten Computern werden in Science-Fiction-Werken intelligente Roboter und Maschinen thematisiert, etwa der Bordcomputer HAL 9000 im Film „2001 A Space Odyssey“ aus dem Jahr 1968: Dieser kann mit seinen menschlichen Kollegen kommunizieren und Schach spielen, entwickelt sich jedoch später dahingehend, dass er sie übertrumpft und tötet. (Xanke/Bärenz 2012: 36-39)

In der Realität wurde der menschliche Weltmeister im Schach bereits 1997 vom IBM-Programm „DeepBlue“ durch mathematische Rechenleistung geschlagen, 2016 und 2017 waren Computersysteme menschlichen Profi-Gegenspielern auch in deutlich komplexeren Spielen mehrfach überlegen (Hummel 2017: s. p.). Maschinelles Lernen, die Technologie, die dafür verantwortlich ist, ermöglicht es trainierter Software ebenfalls, Katzen oder Krebszellen auf Bildern zu erkennen (Dittberner 2017: s. p.). Zugleich sind seit wenigen Jahren digitale Assistenten auch im Alltag keine Besonderheit mehr, die auf gestellte Fragen mit ganzen Sätzen antworten (Schmitt 2017: s. p.).

Sollen solche Mensch-Maschine-Dialoge erfolgreich sein, bedarf es ausgereifter maschineller Sprachverarbeitung. Denn während es Menschen vergleichsweise leichtfällt, eine Sprache zu erlernen, ist es in der Informatik ein ungleich schwierigeres Problem, aus einer Anordnung von Wörtern die enthaltene Bedeutung abzuleiten (Kiser 2016: s. p.).

Diese Problematik betrifft auch das verwandte Gebiet der maschinellen Übersetzung von Texten, auf dem ebenfalls seit über 50 Jahren geforscht wird. Verschiedene Systeme für maschinelle Übersetzung sind seit Jahren oder Jahrzehnten im Einsatz, obgleich das Feld bereits für untauglich, unmöglich oder gar „tot“ erklärt wurde (Lehrberger/Bourbeau 1988: 2).

Maschinelle Übersetzung ist eine permanent relevante Thematik, da die Menge an Texten, die zu übersetzen ist, ebenso wie die Zahl der notwendigen Sprachkombinationen stetig ansteigt. Die möglichst schnelle mehrsprachige Verfügbarkeit von Texten ist eine wichtige Voraussetzung für Kommunikation in verschiedenen Bereichen, doch die Zahl und Leistungsfähigkeit menschlicher Übersetzer ist für die Bewältigung vielfach nicht ausreichend. (Krenz/Ramlow 2008: 25)

Die Globalisierung insgesamt, aber auch konkrete aktuelle Ereignisse wie die Flüchtlingskrise verdeutlichen den Bedarf an automatischer unmittelbarer Übersetzung: Der Online-Übersetzungsdienst Google Translate verzeichnete in einem kurzen Zeitraum beim Sprachenpaar Arabisch-Deutsch einen Anstieg von Übersetzungen um das Fünffache. (Lewis-Kraus 2016: s. p.)

Dass dieser populäre Dienst monatlich von einer halben Milliarde Nutzer verwendet wird, die pro Tag 140 Milliarden Wörter übersetzen lassen (ibid.), zeigt die Bedeutung solcher Anbieter kostenfreier maschineller Übersetzung. Trotz jahrelanger Entwicklung ließ die sprachliche Qualität der übersetzten Sätze allerdings oft zu wünschen übrig, da die meisten Systeme bisher Satzsegmente einzeln mit Datenbanken abglichen, um statistisch wahrscheinliche Übersetzungen zu finden und diese zu einem Zielsatz zu kombinieren (ibid.).

Im Herbst 2016 kündigten jedoch beinahe zeitgleich nicht nur Google, sondern auch Microsoft sowie der seit Jahrzehnten etablierte Übersetzungsanbieter Systran eine Neuentwicklung auf dem Feld maschineller Übersetzung an: Eine neue Methode, die sich künstliche Intelligenz bzw. maschinelles Lernen zunutze macht. Dieser sogenannte neuronale Ansatz soll im Vergleich zum bisher oft verwendeten statistischen Ansatz eine bessere Übersetzungsqualität liefern, indem Sätze oder gar deren Bedeutung als Ganzes analysiert bzw. erfasst und übersetzt werden sollen. Microsoft und Google sind sich bezüglich der Qualitätsverbesserungen so sicher, dass sie ihre Übersetzungsdienste für einige Sprachen bereits ganz oder teilweise auf das neuronale System umgestellt haben. (Hartford 2017: s. p.)

Daraus ergibt sich die Frage, mit der sich die diese Arbeit auseinandersetzt: Führen die neuen Technologien zu derart bemerkenswerten Verbesserungen, dass man hinsichtlich Nutzen und Übersetzungsqualität von einem neuen Wandel sprechen kann, wenn man ein statistisches maschinelles Übersetzungssystem mit zwei neuronalen vergleicht?

Das Ziel der folgenden Arbeit ist es, diese Fragestellung auf der Grundlage empirischer Daten zu beantworten, welche in einer Untersuchung dreier Übersetzungssysteme erhoben werden. Ein besonderes Augenmerk wird dabei auf die maschinelle Übersetzung von Sätzen mit typischen Übersetzungsproblemen gelegt. Der Vergleich erfolgt unter Berücksichtigung verschiedener Methoden maschineller Übersetzung und ihrer geschichtlichen Entwicklung.

2 Aufbau der Arbeit

Dazu ist die Arbeit wie folgt strukturiert: Zu Beginn werden vier Begriffe bzw. Themengebiete grundlegend definiert, die nicht nur aktuell viel Aufmerksamkeit erfahren, sondern vor allem für die folgende Arbeit und ihr Verständnis wesentlich sind. Nachdem deren Verwendung für diese Arbeit festgelegt und mittels aktueller Anwendungsbeispiele ein Überblick geschaffen wurde, wird detaillierter auf das Feld der maschinellen Übersetzung eingegangen.

Hierfür wird zunächst die geschichtliche Entwicklung des Fachgebiets von 1933 bis heute chronologisch zusammengefasst und in fünf Phasen unterteilt, die sich aus bedeutenden Meilensteinen oder Wendepunkten ergeben. Anschließend werden die Methoden maschineller Übersetzung erläutert, die sich im Laufe der Zeit ablösten oder parallel existierten, um ein Verständnis für die unterschiedlichen Ansätze zu schaffen. Dies schließt auch die Methoden ein, welche die in dieser Arbeit untersuchten Systeme nutzen.

Kapitel 6 legt dar, unter welchen Voraussetzungen maschinelle Übersetzung einerseits erfolgreich sein kann und welche Ursachen andererseits zu Schwierigkeiten bei der Übersetzung führen können.

Mit diesem Kapitel sind die notwendigen theoretischen Grundlagen gelegt, sodass in Kapitel 7 der praktische Teil der Arbeit folgen kann, in welchem zwei verschiedene Ansätze maschineller Übersetzung anhand von drei Systemen empirisch verglichen werden. Dazu werden nach der Vorstellung der untersuchten Systeme, der Testszenarien und -kriterien die Testergebnisse für verschiedene ausgewählte Ausgangssätze vorgestellt: In neun Kategorien unterteilt wurden ausgewählte Sätze getestet und bewertet, insbesondere solche mit verschiedenen spezifischen Übersetzungsproblemen.

Nach der Ergebnisauswertung folgt der Ausblick, in dem zukünftige Perspektiven für die künstliche Intelligenz und die maschinelle Übersetzung erörtert werden, bezugnehmend auf die weit zurückliegenden sowie sehr aktuellen Entwicklungen auf beiden Gebieten. Den Abschluss der Arbeit bildet das Fazit, das unter Zusammenfassung der gesamten Arbeit und derErgebnisse die eingangs gestellte Frage beantwortet.

3 Definitionen

Dieses Kapitel enthält Definitionen relevanter Begriffe, die im weiteren Verlauf der Arbeit eine wichtige Rolle spielen werden. Durch die Definitionen soll ein grundlegendes Verständnis der drei eng miteinander verwobenen Forschungsfelder Künstliche Intelligenz, Maschinelles Lernen, Künstliche Neuronale Netze und Deep Learning geschaffen werden, die in den folgenden Unterkapiteln dargelegt werden. Zudem wird anschließend der zentrale Begriff der Maschinellen Übersetzung definiert.

Dies dient einem verbesserten Verständnis der Arbeit. Darüber hinaus soll Unklarheiten vorgebeugt werden, indem die Verwendung der genannten Begriffe in dieser Arbeit spezifiziert wird.

Überdies wird an dieser Stelle im Fall der drei ersten Bezeichnungen neben den reinen Definitionen auch jeweils ein kurzer Forschungsüberblick zum Gebietgegeben, um mithilfe von Beispielen die praktische Anwendung zu veranschaulichen. Damit wird berücksichtigt, dass es sich insbesondere bei den dargelegten Fachgebieten um gegenwärtig äußerst aktuelle Forschungsfelder handelt.

3.1 Künstliche Intelligenz

Wie bereits in der Einleitung angesprochen, erfährt das Gebiet der künstlichen Intelligenz (KI) aktuell viel Aufmerksamkeit in der Forschungsgemeinde sowie in den Medien. Schon der Ausdruck selbst birgt allerdings großes Potenzial für Missverständnisse und überhöhte Erwartungen in sich, seit er 1956 auf einer Konferenz anerkannter Wissenschaftler auf dem Dartmouth College geprägt wurde (Görz/Schneeberger/Schmid 2013: 2).

John McCarthy, einer der Teilnehmer, formulierte das Ziel der KI-Forschung zu dem Zeitpunkt vage als das „Erschaffen einer Maschine, die sich so verhält, dass man dies intelligent nennen würde, wenn ein Mensch sich so verhielte“ (Armbruster/Lindner 2017: s. p.). Angesichts großer Fortschritte in der Anfangsphase der Forschung prognostizierte 1970 sein Kollege Marvin Minsky, das Problem der Schöpfung einer künstlichen Intelligenz werde innerhalb einer Generation im Wesentlichen gelöst sein (Dreyfus 1985: 9).

Zwar folgte bald darauf der „AI winter“, eine Phase, in der dieser Optimismus, das öffentliche Interesse und die Finanzierung von KI-Forschung aufgrund ausbleibender Erfolge nachließen (Görz/Schneeberger/Schmid 2014: 5). Doch als Folge von neuerlichen Durchbrüchen auf dem Feld der KI, speziell im Jahr 2016, wird „Künstliche Intelligenz“ als Modewort bzw. Werbeslogan gar für smarte Waschmaschinen oder Zahnbürsten verwendet (Vincent 2017b: s. p.).

Dass dieselbe Bezeichnung andererseits unweigerlich an Spielfilme wie „Her“[1] denken lässt, in dem KI die Basis für Software ist, die mehr oder minder empfindungsfähig ist und ebenso wie Menschen Sprache und Humor versteht und anwendet (ibid.), ist darauf zurückzuführen, dass zunächst zwei grundsätzlich unterschiedliche Konzepte von KI unterschieden werden müssen: Die KI, von der zu Beginn der Forschung ausgegangen wurde und auf der zahllose Science-Fiction-Werke aufbauen, ist definiert als generelle künstliche Intelligenz. Von dieser Form von KI ist die Rede, wenn sie denken und verstehen kann wie ein Mensch. Jedoch existiert gegenwärtig keine Anwendung, auf die dies annähernd zutrifft. (Copeland 2016: s. p.)

Dem gegenüber steht die eingeschränkte KI („narrow AI“). Diese Form von KI ist auf ein einzelnes Aufgabengebiet oder vielmehr auf ein spezielles zu lösendes Problem beschränkt (ibid). Wird ein KI-System auf dem jeweiligen speziellen Gebiet trainiert, in aller Regel mittels maschinellem Lernen (siehe Kapitel 3.2), kann es in der Lage sein, ausgewählte Aufgaben ebenso gut wie oder besser als ein Mensch zu lösen. Entsprechende praktische Umsetzungen sind seit wenigen Jahren in zahlreicher Form in verschiedenen Bereichen zu beobachten; einige werden im Folgenden beispielhaft angeführt.

Eine Definition, die der Bandbreite der Anwendungen in Theorie und Praxis gerecht wird, ohne dabei zu sehr zu verallgemeinern, geben Görz/Schneeberger/Schmid:

„Künstliche Intelligenz“ ist eine wissenschaftliche Disziplin, die das Ziel verfolgt, menschliche Wahrnehmungs- und Verstandsleistungen zu operationalisieren und durch [...] technische – insbesondere informationsverarbeitende – Systeme verfügbar zu machen. (Görz/Schneeberger/Schmid 2013: 1)

Ausschließlich diese Definition für KI wird im Rahmen dieser Arbeit verwendet; außerdem ist stets, sofern nicht anders angegeben, die eingeschränkte Form der KI gemeint.

Das Feld der künstlichen Intelligenz mag wie ein Sammelbecken verschiedener Konzepte und Technologien erscheinen, bei denen nicht immer klar ist, ob es sich um KI handelt oder nicht. Um die vielfältigen derzeitigen Einsatzmöglichleiten von KI-Systemen zu illustrieren, werden nun einige Beispiele aufgeführt.

Unter den großen IT-Firmen hat längst ein Wettbieten um die größten KI-Talente begonnen; Google selbst erklärte, es werde künftig ein „AI first“-Unternehmen sein. Somit ist es nicht verwunderlich, dass die Folgen der „KI-Offensive“ allmählich auch im digitalisierten Alltag Einzug halten. Ein Beispiel dafür sind digitale Assistenten auf Smartphones: Die Anwender kommunizieren mit ihnen in natürlicher Sprache, die Anfrage wird von einem übers Internet angebundenen KI-System immer treffsicherer analysiert und beantwortet. Ebenso werden beim Tippen auf der Smartphone-Tastatur passende Vorschläge für das nächste Wort gegeben, basierend auf einer nicht von Menschen, sondern einer KI-Software durchgeführten Analyse. (Zeier 2016: s. p.)

Auf einer größeren Bühne präsentierte IBM im Jahr 2011 der Öffentlichkeit ihren „Supercomputer“ Watson, der beeindruckende Ergebnisse in der Fernsehshow „Jeopardy!“ erzielte und seine erfahrenen menschlichen Konkurrenten hinter sich ließ. Bemerkenswert an diesem Erfolg von KI ist das Format der Show, denn zum Lösen der Aufgaben, dem Finden der richtigen Frage zu einer vorgegebenen Antwort, braucht es sowohl Wissen als auch komplexe Reaktionen und Assoziationen verschiedener Wissensgebiete. ([Watson] 2011: s. p.)

Entsprechend trainiert, wird Watson auch in vielen anderen Kontexten eingesetzt, in denen Problemlösungen davon abhängig sind, große Datenmengen zu analysieren und auf neue Fragestellungen in einem bestimmten Gebiet anzuwenden: der Prüfung von Dokumenten für die Auszahlung von Versicherungsprämien, dem Abgleich von Krebspatientendaten zur Empfehlung einer voraussichtlich geeigneten Therapie (Best 2013: s. p.) bis hin zum Kreieren neuartiger Kochrezepte (Fritzsche 2015: s. p.).

Als ein weiterer Durchbruch in der KI-Forschung wurde 2016 der deutliche Sieg von KI über einen menschlichen professionellen Gegner gefeiert, als das Programm AlphaGo, entwickelt von der durch Google aufgekauften Firma DeepMind, den Weltmeister im hochkomplexen Brettspiel „Go“ besiegte – mit einer Art von Intuition, die sich das Programm selbst beigebracht hatte, zehn Jahre früher als von Experten erwartet. ([Go] 2016: s. p.)

In ähnlicher Weise profitierte das Programm „Libratus“ von der gestiegenen Hardware-Leistung, als es nach Millionen CPU-Stunden des Pokertrainings vier professionelle Spieler im Texas Hold‘em ohne Limit schlug, obwohl dem System spielbedingt stets nur unvollständige Informationen über den Spielstand vorlagen (Merkert 2017: s. p.).

Als abschließendes Beispiel für den praxisrelevanten Einsatz von KI, auch in Zusammenhang mit der Steigerung der informationsverarbeitenden Hardware, sei die fürs autonome Fahren von Autos notwendige Echtzeit-Erkennung von Objekten in der Fahrzeugumgebung angeführt. (Gulde 2016: s. p.)

[1] Her: Ein romantisches Science-Fiction-Drama, in dem der Protagonist eine ungleiche Beziehung mit einem „Operating System“ eingeht, das auf seine Bedürfnisse abgestimmt ist ([Her] s. a.: s. p.)