Dimitar Shterionov über die neuesten Forschungstrends der maschinellen Übersetzung
06. Jan. 2021
Bei RWS Moravia haben wir stets ein Ohr an den neuesten Entwicklungen der Sprachforschung, insbesondere was die maschinelle Übersetzung (MT) anbelangt. Maribel Rodríguez Molina, RWS Moravia Language Technology Development & Deployment Manager, hat sich mit Dimitar Shterionov, Assistant Professor an der niederländischen Universität Tilburg sowie ehemaliger Assistant Professor an der Dublin City University (DCU) und Mitarbeiter des dortigen ADAPT Centre, über neuronales Post-Editing, Rückübersetzungen zur Verbesserung der MT-Leistung und die derzeit spannendsten MT-Themen unterhalten.
Dimitar, erzählen Sie uns doch ein bisschen von sich selbst und über Ihren Forschungsschwerpunkt.
Bis Januar dieses Jahres hatte ich eine Postdoktorandenstelle am ADAPT Centre der Dublin City University inne. Ich forschte dort in einer Art Scharnierfunktion an Projekten aus der freien Wirtschaft, mit denen das ADAPT Centre zu tun hatte. Wenn ein Unternehmen moderne Forschung betreiben wollte, um seine Dienstleistungen zu verbessern oder neue Dienstleistungen am Markt anzubieten, war ich einer der Mitarbeiter am ADAPT Centre, die in die Projektumsetzung eingebunden waren. Zu meinen Aufgaben gehörten erforderliche Recherchen sowie die Projektentwicklung und/oder -bereitstellung. Von Januar bis Juni 2020 bekleidete ich dann eine Stelle als Assistant Professor an der DCU und arbeitete weiterhin mit dem ADAPT Centre zusammen. Im August nahm ich eine neue Stelle an der Universität Tilburg in den Niederlanden an.
Mein Forschungsschwerpunkt ist die maschinelle Übersetzung, kurz MT. Insbesondere befasse ich mich mit der wechselseitigen Abhängigkeit von Daten und der Zieltextqualität von MT-Engines, ich möchte also untersuchen, welche Daten wir zum Trainieren von MT-Engines verwenden und wie sich diese Daten auf die Leistung auswirken. Zu meinen weiteren Arbeitsfeldern und Interessensgebieten gehören Qualitätsschätzungen, Rückübersetzungen und der Diskurs zum Thema maschinelle Übersetzung.
Was für einen Diskurs meinen Sie?
Es geht dabei vor allem um die Konsistenz und Kohärenz von Dokumenten, die übersetzt werden. Heutige MT-Engines arbeiten auf Satzebene, sie übersetzen also immer nur einen Satz auf einmal. Dadurch können jedoch im Kontext verborgene Informationen und damit ein Teil der Bedeutung des Dokuments verloren gehen. Wir untersuchen, wie sich Kontext in eine (auf Satzebene arbeitende) MT-Engine einbinden lässt, und wollen herausfinden, wie man die Kohärenz von Dokumenten erhalten kann, ohne dass zum Zeitpunkt der Übersetzung das gesamte Dokument verarbeitet wird.
Aktuell scheint es viele verschiedene Forschungstrends hinsichtlich der neuronalen maschinellen Übersetzung (NMT) zu geben. Welche Trends sind Ihrer Meinung nach am wichtigsten und warum?
Ein Trend, der zurzeit in der MT-Branche immer bedeutender wird, sind synthetische Daten. Normalerweise wird eine MT-Engine mit einem Parallelkorpus trainiert. Das heißt, man verwendet beispielsweise englische Quelldaten und deutsche Zieldaten, wobei letztere eine Übersetzung der ersteren sind. Für einige Sprachpaare liegen jedoch nicht genügend Paralleldaten vor, sodass keine neue MT-Engine trainiert werden kann.
Innerhalb derselben geografischen Region oder in aneinandergrenzenden Regionen können mehrere Sprachen in Verwendung sein, zum Beispiel Amharisch und Tingrinya in Äthiopien oder verschiedene indische Sprachen, aber es gibt nicht genug (oder manchmal gar keine) Paralleldaten in ausreichender Qualität, um neuronale MT-Engines zu trainieren. Um dieses Problem zu lösen, generieren Forscher auf der Grundlage einsprachiger Daten synthetische Parallelkorpora.
Eine Möglichkeit ist etwa die Rückübersetzung – ein Thema, mit dem ich mich seit einiger Zeit befasse. Von Rückübersetzung spricht man, weil man auf einsprachige Daten in der Zielsprache zurückgreift und dann versucht, diese in die Ausgangssprache zu übersetzen. Rückübersetzung ist also der Prozess des Übersetzens einsprachiger Daten mithilfe einer vorhandenen MT-Engine, auch wenn diese qualitativ nicht optimal ist. Die MT-Ausgabe wird dann als Pseudoquelle für einen (synthetischen) Parallelkorpus verwendet, während die ursprünglichen einsprachigen Daten als Zieldaten dienen.
Wissenschaftliche Untersuchungen haben ergeben, dass eine Engine, die mit einer Mischung aus realen Paralleldaten und rückübersetzten – wenngleich oft minderwertigen – Daten trainiert wird, eine deutlich höhere Übersetzungsleistung erreichen kann als eine Engine, die nur mit realen Paralleldaten trainiert wird.
In unserer jüngsten Forschungsarbeit, Selecting Backtranslated Data from Multiple Sources for Improved Neural Machine Translation (Zur Verbesserung der neuronalen maschinellen Übersetzung rückübersetzte Daten aus mehreren Quellen auswählen), einem Gemeinschaftsprojekt von Xabier Soto (UPV/EHU), Alberto Poncelas, Andy Way (DCU/ADAPT) und mir, haben wir unterschiedliche Engines zum Generieren rückübersetzter Daten untersucht: regelbasierte MT, ausdrucksbasierte statistische MT und neuronale MT (sowohl mit RNN- als auch mit transformerbasierter Architektur). Als Nächstes optimierten wir einen hochmodernen Datenauswahl-Algorithmus für unsere Zwecke, um eine Teilmenge der rückübersetzten Daten aus den einzelnen Engines auswählen zu können. Anhand dieser optimierten bzw. reduzierten Menge an synthetischen Paralleldaten sowie einiger realer Paralleldaten trainierten wir neue Transformer Engines mit vermindertem Trainingsaufwand und hoher Übersetzungsleistung. Unser Artikel wurde auf der diesjährigen ACL-Konferenz präsentiert und steht unter https://www.aclweb.org/anthology/2020.acl-main.359.pdf zum Abruf bereit.
Schon seit einer Weile ist von automatischem Post-Editing (APE) die Rede. Können Sie uns mehr darüber verraten?
Angenommen, wir haben einen Satz in Sprache 1 und lassen ihn maschinell in Sprache 2 übersetzen. Übersetzungsfehler wird es immer geben, und automatisches Post-Editing (APE) zielt darauf ab, solche Fehler ohne die Hilfe eines menschlichen Post-Editors zu korrigieren. Grob verallgemeinert übersetzt eine APE-Engine aus Sprache 2, die einige Fehler enthält, wieder zurück in Sprache 2. Dabei versucht die Engine, fehlerhafte Textabschnitte mit korrekten Textabschnitten abzugleichen. Oder anders gesagt: Eine APE-Engine nimmt fehlerhaften Text und übersetzt diese inkorrekten Sätze oder ordnet sie fehlerfreien Sätzen derselben Sprache zu.
Neueste APE-Engines basieren auf neuronalen Ansätzen (was oft als neuronales Post-Editing oder NPE bezeichnet wird) und versuchen, systematische Fehler zu minimieren. Dadurch sollen Post-Editoren entlastet werden, die sich dann nicht immer wieder mit denselben Fehlern herumschlagen müssen und sich stattdessen auf wichtigere und kreativere Aspekte des Übersetzens konzentrieren können.
Wie schneidet das automatische Post-Editing statistisch-maschinell übersetzter Texte gegenüber neuronaler maschineller Übersetzung ab, sowohl im Hinblick auf die Übersetzung als auch das Post-Editing?
Beide Technologien – statistische maschinelle Übersetzung (SMT) und neuronale maschinelle Übersetzung (NMT) – haben ihre Vor- und Nachteile, doch lassen sie sich kombinieren, um bessere Ergebnisse zu erzielen. Das Post-Editing von SMT-Output mittels einer NMT-Engine mit dem Ziel, Satzbau-, Sprachfluss- und ähnliche Probleme zu beheben, hat sich als sehr effektiv erwiesen.
Bei einer Reihe von Experimenten, die wir 2019 durchführten, verbesserte sich der Sprachfluss um 40 %. Dies bedeutet natürlich nicht, dass wir damit die Qualität einer Human-Übersetzung erreicht hätten – es gibt nach wie vor einige Probleme zu lösen –, aber wir konnten immerhin einige lästige Fehler ausmerzen.
Setzt man eine SMT-Engine für die Übersetzung und eine NMT-Engine für das Post-Editing ein, verbessert dies die ursprüngliche SMT-Ausgabe. Kombiniert man hingegen zwei NMT-Engines miteinander – also eines für die Übersetzung und eine APE-Engine, das auf derselben neuronalen Technologie beruht –, dann sind die Resultate weniger überzeugend, da beide Engines dasselbe Prinzip anwenden. Allerdings gibt es nach wie vor viele mit SMT arbeitende Unternehmen, die einige dieser NMT-Ansätze anwenden und so die Qualität ihres MT-Outputs verbessern können, ohne deshalb ihre SMT-Engines aussortieren und wieder bei Null anfangen zu müssen.
Zum Thema APE haben wir übrigens einen Artikel geschrieben, der erst letzten Monat im Machine Translation Journal veröffentlicht wurde. Er ist eine Gemeinschaftsarbeit mit dem Microsoft-Team in Dublin von 2018/2019 und bietet interessante Einblicke in das APE in realen Anwendungsfällen, darunter die Experimente, die ich schon erwähnt hatte. Der Artikel heißt A roadmap to neural automatic post-editing: an empirical approach (Eine Roadmap zum neuronalen automatischen Post-Editing: einer empirischer Ansatz) und steht hier zur Verfügung. Ein weiterer Artikel zum Thema APE ist bereits in Arbeit und dürfte demnächst ebenfalls im Machine Translation Journal erscheinen.
Welche Veränderungen sehen Sie in den nächsten fünf Jahren auf die Welt der neuronalen maschinellen Übersetzung zukommen?
Ein Trend ist die mehrsprachige MT, also das Zusammenführen mehrerer Sprachen in neuronalen MT-Engines, damit Anwender mit einem einzigen NMT-Engine in beliebige Sprachen übersetzen können. Diese Entwicklung ist wahrscheinlich, weil wir unser Wissen aus ähnlichen Sprachen nutzen wollen, um die Übersetzung in andere Sprachen zu verbessern.
Dies ist eine sehr interessante, vielversprechende Entwicklung, vor allem wenn es darum geht, hochwertige Übersetzungssysteme für ressourcenarme Sprachpaare oder für Notfallsituationen mit Zeitdruck oder Datenmangel bereitzustellen.
Ein anderes Thema, das ich vor einigen Monaten mit einem ehemaligen Mitglied des ADAPT Centre diskutiert habe, sind hochpersonalisierte MT-Engines, die auf sehr persönlicher Ebene zwischen zwei Anwendern hin- und herübersetzen können. Nehmen wir etwa an, Sie und ich würden dieses Gespräch in unserer jeweiligen Muttersprache führen – wir könnten dann eine hochspezialisierte Engine einsetzen, das aus dem Gespräch sprecherspezifische Informationen ableiten und parallel dazu sehr gut übersetzen würde.
Gibt es noch etwas, das Sie hinzufügen möchten?
Bei der maschinellen Übersetzung gibt es derzeit viele spannende Entwicklungen: Qualitätsschätzung, automatisches Post-Editing, neue Technologietrends, fortschrittliche vortrainierte Übersetzungs- und Sprachmodelle (BERT, XLM, GPT3) und so weiter. Ein Problem, für das es immer noch keine zufriedenstellende Lösung gibt, ist die (maschinelle) Übersetzung von Terminologie, denn man muss einem Engine erst einmal beibringen, unternehmensspezifische Termini wie Markennamen korrekt zu übersetzen. Wenn beispielsweise ein Automobilunternehmen einen bestimmten Terminus verwendet, kann ein anderes Unternehmen für dasselbe Konzept einen ganz anderen Ausdruck benutzen. Wir müssen also sicherstellen, dass die eingesetzten MT-Engines solche Unterschiede erkennen und richtig verarbeiten können.
Vielen Dank für das Gespräch!
Sehr gern!