Machen Sie Ihre MT-Engine fit für Ihr Programm
06. Okt. 2019
In einem anderen Blogeintrag ging es um die Voraussetzungen für die maschinelle Übersetzung von der Bestimmung geeigneter Inhalte bis hin zur Auswahl der passenden MT-Engine.
Doch die Auswahl der richtigen Engine für Ihre Projekte ist ein Verfahrensschritt, der einige weitere Ausführungen verdient. Denn worauf muss man achten, wenn man sich die zahlreichen verfügbaren Angebote anschaut? Und wie grenzt man seine Auswahl am besten ein?
Wie bereits in unserem letzten Posting gesagt wurde, eignen sich längst nicht alle Engines für sämtliche Übersetzungsanforderungen. Deshalb ist es wichtig, dass Ihr Sprachdienstleister mit Ihnen im Vorfeld Ihre Projektanforderungen und insbesondere Ihre Erwartungen in Sachen Qualität klärt.
Dabei werden Sie aufgefordert, einen Textkorpus bereitzustellen, der Ausgangstexte und entsprechende Übersetzungen von professionellen Linguisten enthält. Die Ausgangstexte werden dann in eine Probetextauswahl aufgenommen, die von einer MT-Engine übersetzt wird. Anschließend werden maschinell übersetzte und von professionellen Übersetzern bearbeitete Texte miteinander verglichen, um die Qualität der MT-Übersetzung zu ermitteln.
Wie aber wählt man überhaupt geeignete Engines für einen derartigen Test aus? Hier erläutern wir den Auswahlprozess, den wir bei RWS Moravia anwenden.
1. Eingrenzung
Technische Einschränkungen geben vor, welche Engines für den Testlauf überhaupt infrage kommen. Zunächst wird überprüft, welche Engines Ihr Translation Management System (TMS) unterstützt. (Falls Sie kein TMS besitzen, wird dieser Schritt übersprungen.) Mit Blick auf MT-Engines gilt es jedoch noch einige weitere Dinge zu beachten. Wir verwenden unter anderem die folgenden Kriterien:- Engine-Typ: Die wichtigsten Engine-Kategorien sind derzeit das Neuronale Maschinelle Übersetzen (NMT) und das Statistische Maschinelle Übersetzen (SMT). Studien haben ergeben, dass die noch relativ neuen NMT-Engines besser abschneiden als SMT-Engines und zudem Tag für Tag besser werden. SMT wird zwar noch in einigen Fällen eingesetzt, große Namen wie Google und Microsoft steigen jedoch bereits auf NMT um.
- Datenschutz: Nicht alle Anbieter von MT-Engines garantieren den Schutz Ihrer Daten und speichern sie beizeiten sogar in ihren eigenen Systemen. Das sorgt bei einigen unserer Kunden für Bauchschmerzen. Andere Anbieter wie Microsoft oder Google schließen die Nutzung Ihrer Daten für andere Zwecke ausdrücklich aus, sofern Sie ihre zahlungspflichtigen Dienstleistungen in Anspruch nehmen.
- Grundgerüst: Die meisten Anbieter von MT-Engines verwenden eine grundlegende Standard-Engine, die noch nicht auf Markenterminologie und stilistische Vorlieben trainiert worden ist. Stattdessen verwendet sie frei zugängliche Daten aus dem Internet. Andere Anbieter wie Globalese bieten dagegen „Tabula rasa“-Lösungen an. Hier muss die Engine zunächst auf Ihre konkreten Inhalte trainiert werden.
- Sie verwenden eine Blanko-Engine, wenn Sie ganz von vorne anfangen wollen. Dafür benötigen Sie große Mengen an Trainingsdaten.
- Sie füttern eine Standard-Engine mit Ihren Inhalten und stilistischen Vorlieben, was den Trainingsaufwand verringert. Diese Option wird von uns bevorzugt, da sie leicht durchführbar ist. Die meisten unserer Kunden verfügen über ausreichend Trainingsdaten, um eine Standard-Engine an ihre Vorstellungen anzupassen. Damit erzielen sie grundsätzlich bessere Ergebnisse als mit einer unangepassten Standard-Engine. Für einen absoluten Neuanfang sind aber meist nicht genügend Daten vorhanden.
- Sie verwenden eine Standard-Engine ohne weitere Anpassungen anhand von Trainingsdaten.