Dimitar Shterionov über die neuesten Forschungstrends der maschinellen Übersetzung

Lee Densmer 06. Jan. 2021
Dimitar Shterionov über die neuesten Forschungstrends der maschinellen Übersetzung
Bei RWS Moravia haben wir stets ein Ohr an den neuesten Ent­wicklungen der Sprach­forschung, ins­besondere was die maschinelle Über­setzung (MT) an­belangt. Maribel Rodríguez Molina, RWS Moravia Language Technology Development & Deployment Manager, hat sich mit Dimitar Shterionov, Assistant Professor an der nieder­ländischen Uni­versität Tilburg sowie ehe­maliger Assistant Professor an der Dublin City University (DCU) und Mit­arbeiter des dortigen ADAPT Centre, über neuronales Post-Editing, Rück­übersetzungen zur Ver­besserung der MT-Leistung und die der­zeit spannendsten MT-Themen unterhalten. Dimitar, erzählen Sie uns doch ein bisschen von sich selbst und über Ihren Forschungs­schwerpunkt. Bis Januar dieses Jahres hatte ich eine Post­doktoranden­stelle am ADAPT Centre der Dublin City University inne. Ich forschte dort in einer Art Scharnier­funktion an Pro­jekten aus der freien Wirt­schaft, mit denen das ADAPT Centre zu tun hatte. Wenn ein Unter­nehmen moderne Forschung be­treiben wollte, um seine Dienst­leistungen zu ver­bessern oder neue Dienst­leistungen am Markt an­zubieten, war ich einer der Mit­arbeiter am ADAPT Centre, die in die Projekt­umsetzung ein­gebunden waren. Zu meinen Auf­gaben ge­hörten er­forderliche Recherchen sowie die Projekt­entwicklung und/oder -bereit­stellung. Von Januar bis Juni 2020 be­kleidete ich dann eine Stelle als Assistant Professor an der DCU und ar­beitete weiter­hin mit dem ADAPT Centre zusammen. Im August nahm ich eine neue Stelle an der Universität Tilburg in den Niederlanden an. Mein Forschungs­schwerpunkt ist die maschinelle Über­setzung, kurz MT. Ins­besondere befasse ich mich mit der wechsel­seitigen Ab­hängigkeit von Daten und der Ziel­textqualität von MT-Engines, ich möchte also unter­suchen, welche Daten wir zum Trainieren von MT-Engines ver­wenden und wie sich diese Daten auf die Leistung aus­wirken. Zu meinen weiteren Arbeits­feldern und Interessens­gebieten gehören Qualitäts­schätzungen, Rück­übersetzungen und der Diskurs zum Thema maschinelle Übersetzung. Was für einen Diskurs meinen Sie? Es geht dabei vor allem um die Kon­sistenz und Ko­härenz von Doku­menten, die über­setzt werden. Heutige MT-Engines ar­beiten auf Satz­ebene, sie über­setzen also immer nur einen Satz auf einmal. Dadurch können jedoch im Kon­text ver­borgene In­formationen und damit ein Teil der Be­deutung des Dokuments ver­loren gehen. Wir unter­suchen, wie sich Kontext in eine (auf Satz­ebene ar­beitende) MT-Engine ein­binden lässt, und wollen heraus­finden, wie man die Kohärenz von Dokumenten er­halten kann, ohne dass zum Zeit­punkt der Über­setzung das gesamte Dokument ver­arbeitet wird. Aktuell scheint es viele ver­schiedene Forschungs­trends hin­sichtlich der neuronalen maschinellen Über­setzung (NMT) zu geben. Welche Trends sind Ihrer Meinung nach am wichtigsten und warum? Ein Trend, der zurzeit in der MT-Branche immer be­deutender wird, sind synthetische Daten. Normaler­weise wird eine MT-Engine mit einem Parallel­korpus trainiert. Das heißt, man ver­wendet beispiels­weise englische Quell­daten und deutsche Ziel­daten, wobei letztere eine Über­setzung der ersteren sind. Für einige Sprach­paare liegen jedoch nicht genügend Parallel­daten vor, sodass keine neue MT-Engine trainiert werden kann. Innerhalb derselben geo­grafischen Region oder in aneinander­grenzenden Regionen können mehrere Sprachen in Ver­wendung sein, zum Beispiel Amharisch und Tingrinya in Äthiopien oder ver­schiedene indische Sprachen, aber es gibt nicht genug (oder manchmal gar keine) Parallel­daten in aus­reichender Qualität, um neuronale MT-Engines zu trainieren. Um dieses Problem zu lösen, generieren Forscher auf der Grund­lage ein­sprachiger Daten synthetische Parallelkorpora. Eine Möglichkeit ist etwa die Rück­übersetzung – ein Thema, mit dem ich mich seit einiger Zeit befasse. Von Rück­übersetzung spricht man, weil man auf ein­sprachige Daten in der Ziel­sprache zurückgreift und dann ver­sucht, diese in die Aus­gangs­sprache zu über­setzen. Rück­übersetzung ist also der Prozess des Über­setzens ein­sprachiger Daten mithilfe einer vor­handenen MT-Engine, auch wenn diese qualitativ nicht optimal ist. Die MT-Ausgabe wird dann als Pseudo­quelle für einen (synthetischen) Parallel­korpus ver­wendet, während die ur­sprünglichen ein­sprachigen Daten als Ziel­daten dienen. Wissenschaftliche Unter­suchungen haben er­geben, dass eine Engine, die mit einer Mischung aus realen Parallel­daten und rück­übersetzten – wenn­gleich oft minder­wertigen – Daten trainiert wird, eine deutlich höhere Übersetzungs­leistung er­reichen kann als eine Engine, die nur mit realen Parallel­daten trainiert wird. In unserer jüngsten Forschungs­arbeit, Selecting Backtranslated Data from Multiple Sources for Improved Neural Machine Translation (Zur Ver­besserung der neuronalen maschinellen Über­setzung rück­übersetzte Daten aus mehreren Quellen aus­wählen), einem Gemeinschafts­projekt von Xabier Soto (UPV/EHU), Alberto Poncelas, Andy Way (DCU/ADAPT) und mir, haben wir unter­schiedliche Engines zum Generieren rück­übersetzter Daten unter­sucht: regel­basierte MT, aus­drucks­basierte statistische MT und neuronale MT (sowohl mit RNN- als auch mit transformer­basierter Architektur). Als Nächstes optimierten wir einen hoch­modernen Daten­auswahl-Algorithmus für unsere Zwecke, um eine Teil­menge der rück­übersetzten Daten aus den einzelnen Engines aus­wählen zu können. Anhand dieser optimierten bzw. reduzierten Menge an synthetischen Parallel­daten sowie einiger realer Parallel­daten trainierten wir neue Transformer Engines mit ver­mindertem Trainings­aufwand und hoher Übersetzungs­leistung. Unser Artikel wurde auf der dies­jährigen ACL-Konferenz präsentiert und steht unter https://www.aclweb.org/anthology/2020.acl-main.359.pdf zum Abruf bereit. Schon seit einer Weile ist von auto­matischem Post-Editing (APE) die Rede. Können Sie uns mehr darüber verraten? Angenommen, wir haben einen Satz in Sprache 1 und lassen ihn maschinell in Sprache 2 übersetzen. Übersetzungs­fehler wird es immer geben, und auto­matisches Post-Editing (APE) zielt darauf ab, solche Fehler ohne die Hilfe eines mensch­lichen Post-Editors zu korrigieren. Grob ver­allgemeinert über­setzt eine APE-Engine aus Sprache 2, die einige Fehler enthält, wieder zurück in Sprache 2. Dabei versucht die Engine, fehler­hafte Text­abschnitte mit korrekten Text­abschnitten ab­zugleichen. Oder anders gesagt: Eine APE-Engine nimmt fehler­haften Text und übersetzt diese in­korrekten Sätze oder ordnet sie fehler­freien Sätzen derselben Sprache zu. Neueste APE-Engines basieren auf neuronalen An­sätzen (was oft als neuronales Post-Editing oder NPE bezeichnet wird) und ver­suchen, sys­tematische Fehler zu minimieren. Dadurch sollen Post-Editoren ent­lastet werden, die sich dann nicht immer wieder mit den­selben Fehlern herum­schlagen müssen und sich statt­dessen auf wichtigere und kreativere Aspekte des Über­setzens konzentrieren können. Wie schneidet das auto­matische Post-Editing statistisch-maschinell über­setzter Texte gegen­über neuronaler maschineller Über­setzung ab, sowohl im Hin­blick auf die Über­setzung als auch das Post-Editing? Beide Technologien – statistische maschinelle Über­setzung (SMT) und neuronale maschinelle Über­setzung (NMT) – haben ihre Vor- und Nachteile, doch lassen sie sich kom­binieren, um bessere Er­gebnisse zu er­zielen. Das Post-Editing von SMT-Output mittels einer NMT-Engine mit dem Ziel, Satzbau-, Sprachfluss- und ähnliche Pro­bleme zu be­heben, hat sich als sehr effektiv erwiesen. Bei einer Reihe von Experimenten, die wir 2019 durch­führten, ver­besserte sich der Sprach­fluss um 40 %. Dies be­deutet natürlich nicht, dass wir damit die Qualität einer Human-Übersetzung er­reicht hätten – es gibt nach wie vor einige Probleme zu lösen –, aber wir konnten immerhin einige lästige Fehler ausmerzen. Setzt man eine SMT-Engine für die Über­setzung und eine NMT-Engine für das Post-Editing ein, ver­bessert dies die ur­sprüngliche SMT-Ausgabe. Kombiniert man hin­gegen zwei NMT-Engines mit­einander – also eines für die Über­setzung und eine APE-Engine, das auf derselben neuronalen Technologie beruht –, dann sind die Resultate weniger über­zeugend, da beide Engines dasselbe Prinzip anwenden. Aller­dings gibt es nach wie vor viele mit SMT ar­beitende Unter­nehmen, die einige dieser NMT-Ansätze an­wenden und so die Qualität ihres MT-Outputs ver­bessern können, ohne deshalb ihre SMT-Engines aus­sortieren und wieder bei Null anfangen zu müssen. Zum Thema APE haben wir übrigens einen Artikel ge­schrieben, der erst letzten Monat im Machine Translation Journal ver­öffentlicht wurde. Er ist eine Ge­meinschafts­arbeit mit dem Microsoft-Team in Dublin von 2018/2019 und bietet interessante Ein­blicke in das APE in realen Anwendungs­fällen, darunter die Experimente, die ich schon er­wähnt hatte. Der Artikel heißt A roadmap to neural automatic post-editing: an empirical approach (Eine Roadmap zum neuronalen automatischen Post-Editing: einer empirischer Ansatz) und steht hier zur Ver­fügung. Ein weiterer Artikel zum Thema APE ist bereits in Arbeit und dürfte demnächst ebenfalls im Machine Translation Journal erscheinen. Welche Ver­änderungen sehen Sie in den nächsten fünf Jahren auf die Welt der neuronalen maschinellen Übersetzung zukommen? Ein Trend ist die mehr­sprachige MT, also das Zusammen­führen mehrerer Sprachen in neuronalen MT-Engines, damit An­wender mit einem einzigen NMT-Engine in be­liebige Sprachen über­setzen können. Diese Ent­wicklung ist wahr­scheinlich, weil wir unser Wissen aus ähnlichen Sprachen nutzen wollen, um die Über­setzung in andere Sprachen zu verbessern. Dies ist eine sehr interessante, viel­versprechende Ent­wicklung, vor allem wenn es darum geht, hoch­wertige Übersetzungs­systeme für ressourcen­arme Sprach­paare oder für Not­fall­situationen mit Zeit­druck oder Daten­mangel bereit­zustellen. Ein anderes Thema, das ich vor einigen Monaten mit einem ehe­maligen Mit­glied des ADAPT Centre diskutiert habe, sind hoch­personalisierte MT-Engines, die auf sehr per­sönlicher Ebene zwischen zwei Anwendern hin- und her­übersetzen können. Nehmen wir etwa an, Sie und ich würden dieses Gespräch in unserer jeweiligen Mutter­sprache führen – wir könnten dann eine hoch­spezialisierte Engine ein­setzen, das aus dem Ge­spräch sprecher­spezifische Informationen ab­leiten und parallel dazu sehr gut über­setzen würde. Gibt es noch etwas, das Sie hinzufügen möchten? Bei der maschinellen Über­setzung gibt es derzeit viele spannende Ent­wicklungen: Qualitäts­schätzung, automatisches Post-Editing, neue Technologie­trends, fort­schrittliche vor­trainierte Übersetzungs- und Sprachmodelle (BERT, XLM, GPT3) und so weiter. Ein Problem, für das es immer noch keine zufrieden­stellende Lösung gibt, ist die (maschinelle) Übersetzung von Terminologie, denn man muss einem Engine erst einmal bei­bringen, unter­nehmens­spezifische Termini wie Marken­namen korrekt zu über­setzen. Wenn beispiels­weise ein Automobil­unternehmen einen bestimmten Terminus ver­wendet, kann ein anderes Unter­nehmen für dasselbe Konzept einen ganz anderen Aus­druck benutzen. Wir müssen also sicher­stellen, dass die ein­gesetzten MT-Engines solche Unter­schiede er­kennen und richtig ver­arbeiten können. Vielen Dank für das Gespräch! Sehr gern!
Lee Densmer
AUTOR

Lee Densmer

Lee Densmer ist seit 2001 in der Lokalisierungsbranche tätig. Sie begann als Projektmanagerin und wechselte dann zu Lösungsarchitektur und Marketing-Management. Wie viele Lokalisierungsexperten kam auch sie durch ihr Sprachinteresse und ihre linguistische Ausbildung zu diesem Bereich. Sie hat einen Master-Abschluss in Linguistik von der University of Colorado. Lee Densmer lebt in Idaho und unternimmt gern Auslandsreisen und Ausflüge in die umliegenden Berge.
Alle von Lee Densmer