Machen Sie Ihre MT-Engine fit für Ihr Programm

Lee Densmer 06. Okt. 2019

In einem anderen Blogeintrag ging es um die Voraussetzungen für die maschinelle Übersetzung von der Bestimmung geeigneter Inhalte bis hin zur Auswahl der passenden MT-Engine. Doch die Auswahl der richtigen Engine für Ihre Projekte ist ein Verfahrensschritt, der einige weitere Ausführungen verdient. Denn worauf muss man achten, wenn man sich die zahlreichen verfügbaren Angebote anschaut? Und wie grenzt man seine Auswahl am besten ein? Wie bereits in unserem letzten Posting gesagt wurde, eignen sich längst nicht alle Engines für sämtliche Übersetzungsanforderungen. Deshalb ist es wichtig, dass Ihr Sprachdienstleister mit Ihnen im Vorfeld Ihre Projektanforderungen und insbesondere Ihre Erwartungen in Sachen Qualität klärt. Dabei werden Sie aufgefordert, einen Textkorpus bereitzustellen, der Ausgangstexte und entsprechende Übersetzungen von professionellen Linguisten enthält. Die Ausgangstexte werden dann in eine Probetextauswahl aufgenommen, die von einer MT-Engine übersetzt wird. Anschließend werden maschinell übersetzte und von professionellen Übersetzern bearbeitete Texte miteinander verglichen, um die Qualität der MT-Übersetzung zu ermitteln. Wie aber wählt man überhaupt geeignete Engines für einen derartigen Test aus? Hier erläutern wir den Auswahlprozess, den wir bei RWS Moravia anwenden.

1. Eingrenzung

Technische Einschränkungen geben vor, welche Engines für den Testlauf überhaupt infrage kommen. Zunächst wird überprüft, welche Engines Ihr Translation Management System (TMS) unterstützt. (Falls Sie kein TMS besitzen, wird dieser Schritt übersprungen.) Mit Blick auf MT-Engines gilt es jedoch noch einige weitere Dinge zu beachten. Wir verwenden unter anderem die folgenden Kriterien:

Engine-Typ: Die wichtigsten Engine-Kategorien sind derzeit das Neuronale Maschinelle Übersetzen (NMT) und das Statistische Maschinelle Übersetzen (SMT). Studien haben ergeben, dass die noch relativ neuen NMT-Engines besser abschneiden als SMT-Engines und zudem Tag für Tag besser werden. SMT wird zwar noch in einigen Fällen eingesetzt, große Namen wie Google und Microsoft steigen jedoch bereits auf NMT um.
Datenschutz: Nicht alle Anbieter von MT-Engines garantieren den Schutz Ihrer Daten und speichern sie beizeiten sogar in ihren eigenen Systemen. Das sorgt bei einigen unserer Kunden für Bauchschmerzen. Andere Anbieter wie Microsoft oder Google schließen die Nutzung Ihrer Daten für andere Zwecke ausdrücklich aus, sofern Sie ihre zahlungspflichtigen Dienstleistungen in Anspruch nehmen.
Grundgerüst: Die meisten Anbieter von MT-Engines verwenden eine grundlegende Standard-Engine, die noch nicht auf Markenterminologie und stilistische Vorlieben trainiert worden ist. Stattdessen verwendet sie frei zugängliche Daten aus dem Internet. Andere Anbieter wie Globalese bieten dagegen „Tabula rasa“-Lösungen an. Hier muss die Engine zunächst auf Ihre konkreten Inhalte trainiert werden.

Sie haben also drei Möglichkeiten:

Sie verwenden eine Blanko-Engine, wenn Sie ganz von vorne anfangen wollen. Dafür benötigen Sie große Mengen an Trainingsdaten.
Sie füttern eine Standard-Engine mit Ihren Inhalten und stilistischen Vorlieben, was den Trainingsaufwand verringert. Diese Option wird von uns bevorzugt, da sie leicht durchführbar ist. Die meisten unserer Kunden verfügen über ausreichend Trainingsdaten, um eine Standard-Engine an ihre Vorstellungen anzupassen. Damit erzielen sie grundsätzlich bessere Ergebnisse als mit einer unangepassten Standard-Engine. Für einen absoluten Neuanfang sind aber meist nicht genügend Daten vorhanden.
Sie verwenden eine Standard-Engine ohne weitere Anpassungen anhand von Trainingsdaten.

Nun können wir unsere Auswahl auf fünf oder sechs MT-Engines eingrenzen, die Ihren Anforderungen am ehesten entsprechen. Anschließend werden Tests durchgeführt, um das Verhalten der Engines zu ermitteln.

2. Automatische Bewertung

Es gibt zwei Bewertungsverfahren, um die Qualität von MT-Übersetzungen zu ermitteln: die automatische und menschliche Evaluierung. Wir beginnen immer mit einer automatischen Evaluierung. Zu den gängigsten Verfahren zählt der sogenannte BLEU-Score (bilingual evaluation understudy), der auch bei uns verwendet wird. Dabei handelt es sich um einen Algorithmus, mit dem die Ähnlichkeit maschineller und menschlicher Übersetzungen gemessen wird. Je höher dieser Wert ausfällt, desto besser ist die Qualität der Engine und desto näher kommt sie einer menschlichen Übersetzung. Der BLEU-Wert fällt natürlich umso höher aus, je mehr Trainingsdaten vorhanden sind. Der höchstmögliche BLEU-Score beträgt 100. Da aber auch zwei beliebige menschliche Übersetzer niemals absolut identische Übersetzungen abliefern, gilt schon ein Wert von 75 als sehr gut. Unser Referenzwert liegt bei 50: Engines, die einen geringeren Wert erzeugen, werden ausgeschlossen, da sie die Übersetzungseffizienz voraussichtlich nicht verbessern werden. Engines, die einen Wert von 50 oder höher erzielen, werden anschließend weiteren Tests unterzogen.

3. Training der Engines

Nun geht es daran, die Engines mithilfe von Daten aus Ihrem Translation Memory (TM) auf branchen- bzw. marktspezifische Terminologie zu trainieren. Sie haben kein TM, weil Sie gerade einen neuen Markt erobern? In diesem Fall verwenden wir die beste verfügbare generische Engine für die jeweilige Sprache. Nach einer geringfügigen menschlichen Nachbearbeitung (siehe unten) lassen sich die Daten für Trainingszwecke verwenden. Seit einiger Zeit sondieren wir neue Möglichkeiten, um Trainingsdaten zu sammeln. Der TAUS Matching Data Service ermöglicht beispielsweise den Upload von Ausgangsdaten, die vom System analysiert werden. Anschließend kann man dann Trainingsdaten aus der TAUS-Datenbank herunterladen, die zu Ihren Inhalten und der gewünschten Zielsprache passen. Nachdem die Engines trainiert worden sind, werden Ihre Ausgangstexte erneut damit übersetzt und automatisch evaluiert, um zu ermitteln, welche Engines die besten Ergebnisse erzielen. So wählen wir zwei oder drei MT-Engines aus, die dann wiederum einer menschlichen Evaluierung unterzogen werden.

4. Menschliche Evaluierung

Hier lassen wir unsere Kompetenz und unsere Erfahrung spielen und wählen die beste Engine (oder eine Kombination mehrerer Engines) für Ihre Inhalte aus. Zunächst analysieren wir die Qualität der „rohen“ MT (also der von den Engines erzeugten maschinellen Übersetzungen ohne menschliche Nachbearbeitung). Anschließend führen wir ein Post-Editing (PE) durch und messen dessen Effektivität. (Post-Editing ist übrigens etwas anderes als Übersetzen.) RWS Moravia verwendet ein eigens entwickeltes Tool, um maschinelle Übersetzungen im Rohzustand und nach der Nachbearbeitung miteinander zu vergleichen. Dabei stützen wir uns auf Kennzahlen wie die Anzahl der Änderungen und den Zeitaufwand für die Nachbearbeitung der MT-Übersetzung. Je geringer der Aufwand ausfällt, desto besser schneidet die jeweilige Engine ab. Nach der Auswertung der Ergebnisse unserer automatisierten und menschlichen Evaluierungen sticht meistens ein MT-Anbieter heraus.

5. Auswahl der Engine(s) und Durchführung von Pilotversuchen

Möglicherweise entscheiden Sie sich je nach Ihren Zielen und Sprachenpaaren für mehr als eine Engine. Vielleicht schneidet zum Beispiel Google besser bei Chinesisch ab, während Microsoft Französisch besser beherrscht. Außerdem kann es sein, dass eine Engine besser für die Nachbearbeitung und eine andere für die Veröffentlichung unbearbeiteter maschineller Übersetzungen geeignet ist, sofern diese für bestimmte Inhalte ausreichend sind. Sobald die am besten geeigneten Engines feststehen, werden diese von uns mit weiteren Daten trainiert, um die Übersetzungsergebnisse noch weiter zu optimieren. Dabei geht es nicht exakt wissenschaftlich zu – ausschlaggebend sind die Themen, die Inhalte und die Sprachenpaare des jeweiligen Kunden. Die Anpassung von Engines mithilfe von Trainingsdaten basiert auf dem Prinzip von Versuch und Irrtum. Sobald eine Engine fertig trainiert ist, kann ein Pilotprojekt gestartet werden. Auch hier können die Ergebnisse wieder ganz unterschiedlich ausfallen. Eine Engine mit einem hohen BLEU-Score erweist sich für Ihre Zwecke möglicherweise doch als ungeeignet, so dass wir auf einen anderen MT-Anbieter umsteigen oder mit dem Training von vorne anfangen müssen. Ist der Pilotversuch indes erfolgreich, ist das natürlich sehr vorteilhaft! Denn dann kann die Engine ihre Arbeit aufnehmen.

Schlussbemerkungen

Wenn Sie sich für die maschinelle Übersetzung entscheiden, stehen Ihnen viele Möglichkeiten zur Auswahl. Bei der Zusammenarbeit mit einem Sprachdienstleister profitieren Sie von weitreichenden Erfahrungen und können die Liste möglicher Engines schneller auf die Optionen eingrenzen, die Ihren Inhalten, Zielen und Ihrem Budget am ehesten entsprechen. Die eigentliche Herausforderung (natürlich nicht für MT-Nerds wie uns) liegt dabei in dem Prozess aus Versuch und Irrtum. Selbst wenn wir relativ genau einschätzen können, wie gut eine bestimmte Engine abschneiden wird, müssen wir ihre MT-Leistung kontinuierlich kontrollieren. Die Suche nach der besten Lösung für Sie lässt sich leider auch nicht abkürzen. Das waren nun sehr viele Informationen auf einmal! RWS Moravia kann Sie durch das Auswahl- und Einführungsverfahren Ihrer MT-Engine begleiten, damit Sie die bestmöglichen Ergebnisse für Ihr Unternehmen und Ihre Kunden in aller Welt erzielen.

Autor

Lee Densmer

Lee Densmer ist seit 2001 in der Lokalisierungsbranche tätig. Sie begann als Projektmanagerin und wechselte dann zu Lösungsarchitektur und Marketing-Management. Wie viele Lokalisierungsexperten kam auch sie durch ihr Sprachinteresse und ihre linguistische Ausbildung zu diesem Bereich. Sie hat einen Master-Abschluss in Linguistik von der University of Colorado. Lee Densmer lebt in Idaho und unternimmt gern Auslandsreisen und Ausflüge in die umliegenden Berge.

Alle von Lee Densmer