Wie Sie die richtige MT-Engine für Ihre Projekte bereitstellen

Lee Densmer 09. Sept. 2020
Wie Sie die richtige MT-Engine für Ihre Projekte bereitstellen

In einem Blog­artikel dis­kutierten wir kürz­lich, wie sich Pro­jekte für die ma­schinelle Über­setzung (MT) um­setzen lassen, an­gefangen bei der Analyse des für die MT ge­eigneten Contents bis zur Bereit­stellung der MT-Engine.

Doch die Aus­wahl der richtigen Engine für Ihre Pro­jekte ist als Prozess­schritt von so wesentlicher Be­deutung, dass sie eine aus­führlichere Be­trachtung ver­dient. An­gesichts der zahl­reichen – in die Dutzenden gehenden – Optionen, die am Markt ver­fügbar sind, stellt sich die Frage: Auf welche Funktionen kommt es an? Wie finde ich mich im Dschungel der An­gebote zurecht?

Schon in unserem letzten Bei­trag hatten wir er­wähnt, dass nicht jede Engine für jede Art von Auf­gabe ge­eignet ist. Daher ist enge Ab­stimmung mit dem Sprach­dienstleister (LSP) wichtig, damit Sie die Projekt- und insbesondere die Qualitäts­anforderungen ge­meinsam im Voraus definieren können.

Der LSP sollte Sie auch um einen Text­korpus zu Test­zwecken bitten, be­stehend aus Original­texten und von professionellen Linguisten an­gefertigten Über­setzungen. Die Original­texte werden dann mit­hilfe der MT-Engine probe­weise über­setzt. An­schließend wird die MT-Ausgabe mit den manuellen Über­setzungen ab­geglichen, um die MT-Qualität be­urteilen zu können.

Wie also bestimmt man die Engines, die für einen Test infrage kommen? Im Folgenden er­läutern wir, wie RWS Moravia den Auswahl­prozess angeht.

1. Prüfen, was bereitgestellt werden kann

Zunächst müssen Engines ge­funden werden, die die technischen Voraus­setzungen für einen Test er­füllen. Dazu prü­fen Sie erst ein­mal, welche Engines Ihr Translation-Management-System (TMS) über­haupt unter­stützt. Sollten Sie kein TMS haben, können Sie diesen Schritt über­springen.

Dafür gibt es aber einige andere Punkte, die bei MT-Engines zu beachten sind, darunter folgende:

  • Engine-Typ: Die beiden wichtigsten Engine-Typen heut­zutage heißen neuronale maschinelle Über­setzung (NMT) und statistische maschinelle Über­setzung (SMT). Wissen­schaftliche Unter­suchungen legen nahe, dass NMT-Engines, ob­wohl es sie noch gar nicht lange gibt, besser ab­schneiden als SMT-Engines – und ständig besser werden. SMT kommt zwar noch gelegentlich zum Ein­satz, doch Technologie­giganten wie Google und Microsoft stellen ihre Pro­zesse in hohem Tempo auf NMT um.
  • Datenschutz: Nicht alle An­bieter von MT-Engines garantieren die Sicher­heit der Daten, an­hand derer die MT trainiert wird. Statt­dessen kann es sein, dass sie diese Daten für sich be­anspruchen, was bei einigen unserer Kunden für Un­behagen sorgt. Dagegen sichern andere An­bieter, wie Microsoft und Google, für zahlungs­pflichtige Dienste aus­drücklich zu, dass Kunden­daten nur für Kunden­zwecke ver­wendet werden.
  • „Basis“-Framework: Die meisten MT-Engine-Anbieter nutzen eine „Basis“-Engine, das heißt eine generische Standard-Engine, die noch nicht auf marken­spezifische Stil- oder Terminologie­vorgaben „trainiert“ wurde, sondern einfach auf frei ver­fügbare Daten aus dem Inter­net zurück­greift. Andere An­bieter, darunter Globalese, stellen eine Lösung mit einer „leeren“ Engine bereit, die an­hand kon­kreter In­halte trainiert werden muss.

Insgesamt haben Sie also drei Auswahlmöglichkeiten:

  1. Eine leere Engine eig­net sich, wenn Sie die Engine von Be­ginn an selbst „an­lernen“ möchten, wofür Sie jedoch sehr umfang­reiche Trainings­daten benötigen.
  2. Eine Basis-Engine enthält bereits generische Sprach­daten, die Sie um eigenen Content im marken­spezifischen Stil er­gänzen können. Dafür sind weniger Trainings­daten not­wendig. Diese Option ist unser Favorit, da sie am leichtesten um­zusetzen ist. Die meisten unserer Kunden haben gerade genug Trainings­daten, um damit eine Basis-Engine weiter­zuentwickeln und somit das Er­gebnis gegen­über der un­trainierten Basis-Engine zu ver­bessern. Für einen kompletten Neu­anfang mit einer leeren Engine reicht die Menge der ver­fügbaren Trainings­daten dagegen meist nicht.
  3. Und schließlich können Sie eine generische Engine im Ist­zustand ver­wenden, für die gar keine Trainings­daten er­forderlich sind.

Berücksichtigt man all diese Punkte und die definierten An­forderungen, lässt sich die Zahl der ge­eigneten MT-Engines oft auf fünf oder sechs ein­grenzen. Nun ist es an der Zeit, die aus­gewählten Engines in der Praxis zu testen.

2. Automatisierte Evaluationen durchführen

Zur Evaluation der Ausgabe­qualität einer MT-Engine gibt es zwei ver­schiedene Methoden: auto­matisiert und manuell. Wir be­ginnen immer mit Ersterer.

Eine der gängigsten Metriken der auto­matisierten Evaluation, die auch wir an­wenden, heißt BLEU (Bilingual Evaluation Understudy). Beim BLEU Score handelt es sich um einen Algorithmus für den Ver­gleich der Ähnlichkeit zwischen einer maschinellen und einer manuellen Über­setzung. Je höher der Score, desto näher kommt die MT-Ausgabe der manuellen Über­setzung, das heißt, desto besser ist die Qualität der Engine. Es ver­steht sich von selbst, dass der BLEU Score höher ausfällt, wenn für die Engine umfang­reiche Trainings­daten zur Ver­fügung stehen.

Theoretisch kann der BLEU Score bis zu 100 be­tragen, doch da auch zwei Menschen nie exakt gleich über­setzen, ist schon ein Wert von 75 als sehr hoch zu be­trachten. Unsere Toleranz­grenze liegt etwa bei 50: Engines, die diesen Wert unter­schreiten, werden aus­geschlossen, da sie den Übersetzungs­prozess voraus­sichtlich nicht effizienter ge­stalten. Engines, die 50 oder mehr er­reichen, können weiter getestet werden.

3. Engines trainieren

Als Nächstes trainieren wir die Engines für den Um­gang mit branchen- oder markt­spezifischer Terminologie, wofür wir Daten aus Ihrem Translation Memory (TM) einsetzen.

Doch was tun, wenn kein TM vorhanden ist, etwa beim Neu­einstieg in einen Markt?

In diesem Fall beginnen wir mit der besten generischen (Basis-)Engine, die für die jeweilige Sprach­kombination ver­fügbar ist. Nachdem die maschinelle Über­setzung von einem menschlichen Post-Editor nach­gebessert wurde (mehr zum Post-Editing, siehe unten), sind die Daten bereit für das Training.

Außerdem ex­perimentieren wir seit Kurzem mit neuen Methoden, Trainings­daten zu er­stellen. So können wir beispiels­weise mit dem Datenabgleichdienst von TAUS Quell­texte hoch­laden, die dann vom System analysiert werden. Anschließend laden wir aus der TAUS-Datenbank Trainings­daten herunter, die zum jeweiligen Content und zur Ziel­sprache passen.

Nachdem wir die Engines trainiert haben, testen wir sie er­neut anhand Ihrer Quell­texte und er­mitteln per auto­matisierter Evaluation, welche Engine am besten ab­schneidet. Am Ende bleiben in der Regel zwei oder drei Kandidaten übrig, die nun noch ein­mal manuell evaluiert werden..

4. Manuelle Evaluation durchführen

In dieser Phase setzen wir unsere ganze Expertise und Er­fahrung ein, um die Engine (oder Kombination aus mehreren Engines) zu er­mitteln, die am besten zu Ihrem Content passt. Dazu analysieren wir erst die „Roh­qualität“ der MT, das heißt den un­bearbeiteten Engine-Output ohne Review oder Editing durch einen Menschen.

Danach führen wir ein Post-Editing (PE) durch und messen dessen Effektivität. (PE ver­langt andere Fähigkeiten als das Über­setzen.) Für den Ab­gleich zwischen roher und per PE nach­bearbeiteter MT-Ausgabe nutzt RWS Moravia ein unternehmens­eigenes Tool. Als Metrik dient dabei beispiels­weise die An­zahl der Be­arbeitungen oder der Zeit­aufwand des Post-Editors zum Editieren der rohen MT-Ausgabe. Je weniger der Post-Editor ein­greifen muss, desto besser ist die Engine.

Am Ende dieser Phase haben wir die Er­gebnisse der auto­matisierten und der manuellen Evaluation ver­glichen, sodass in der Regel ein einzelner MT-Anbieter als Sieger feststeht.

5. Engine(s) auswählen und Pilotprojekt durchführen

Mitunter ist es sinnvoll, für unter­schiedliche Zwecke oder Sprachen mehrere Engines aus­zuwählen. Zum Beispiel könnte es sein, dass für Chinesisch Google und für Französisch Microsoft bessere Er­gebnisse liefert. Denk­bar wäre auch, dass eine Engine besser für das Post-Editing und eine andere besser für die un­bearbeitete MT geeignet ist, sofern Letztere für einen bestimmten Content-Typ aus­reichend ist.

So oder so gilt: Sobald Sie eine oder mehrere Engines aus­gewählt haben, be­ginnen wir mit dem eigent­lichen Training. Dazu speisen wir weitere Trainings­daten ein, um bessere Resultate zu er­zielen. Dies ist keine exakte Wissen­schaft, denn das Er­gebnis ist immer kunden­spezifisch und hängt letztlich von Thema, Content-Typ und Sprach­kombination ab. Das Trainieren einer Engine an­hand ent­sprechender Daten setzt außerdem einiges Herum­probieren voraus.

Ist die Engine bereit, können wir zum Pilot­projekt über­gehen. Auch hier kann es wieder zu ab­weichenden Er­gebnissen kommen. Es ist nicht aus­zuschließen, dass eine Engine mit hohem BLEU Score am Ende doch nicht für Ihren speziellen Zweck ge­eignet ist, sodass wir den MT-Anbieter wechseln oder das Training wieder­holen müssen. Sollte das Pilot­projekt aber erfolg­reich ver­laufen, dann kann die Engine endlich den Betrieb aufnehmen.

Fazit

Wenn Sie den Entschluss getroffen haben, dass maschinelle Über­setzung für Ihre Projekte in­frage kommt, haben Sie die Qual der Wahl. Ein LSP kann Ihnen jedoch mit seiner umfang­reichen Er­fahrung dabei helfen, aus der langen Liste der Kandidaten diejenigen Engines heraus­zufiltern, die am ehesten zu Ihrem Content, Um­fang und Budget passen.

Die „Heraus­forderung“ – in Anführungs­zeichen, weil uns MT-Experten das Experimentieren gar nichts aus­macht – besteht dann darin, ver­schiedene Optionen durch­zuspielen. Selbst wenn wir schon eine Vor­ahnung davon haben, wie eine Engine ab­schneiden wird, müssen wir, um ganz sicher zu sein, die MT-Leistung im Laufe der Zeit messen und überwachen. Schließlich wollen wir die beste Lösung für Sie er­mitteln, ohne Kompromisse.

Uns ist bewusst, dass es hier vieles zu be­achten gibt. Doch dafür ist RWS Moravia da: Wir begleiten Sie gern bei jedem einzelnen Auswahl- und Bereitstellungs­schritt, bis die Resultate den An­sprüchen Ihres Unter­nehmens und Ihrer globalen Kundschaft genügen.

Lee Densmer
AUTOR

Lee Densmer

Lee Densmer ist seit 2001 in der Lokalisierungsbranche tätig. Sie begann als Projektmanagerin und wechselte dann zu Lösungsarchitektur und Marketing-Management. Wie viele Lokalisierungsexperten kam auch sie durch ihr Sprachinteresse und ihre linguistische Ausbildung zu diesem Bereich. Sie hat einen Master-Abschluss in Linguistik von der University of Colorado. Lee Densmer lebt in Idaho und unternimmt gern Auslandsreisen und Ausflüge in die umliegenden Berge.
Alle von Lee Densmer