Die Zukunft der Evaluation der linguistischen Qualität: Interview mit Dr. Joss Moorkens
16. Dez. 2020


Angesichts einer immer regeren Interaktion zwischen Verbrauchern und den Produkten und Angeboten von Unternehmen sind immer größere Mengen an Content zu übersetzen. Die Verbraucher erwarten Produktbeschreibungen, Bewertungen, Online-Hilfen und sogar Social-Media-Beiträge … und Unternehmen täten gut daran, all dies in mehreren Sprachen zur Verfügung zu stellen. Die Aufgabe, diese Menge an Content schnell bereitzustellen, lässt maschinelle Übersetzung (MT) oft attraktiv wirken.
Doch liefert sie ausreichend gute Qualität? Eventuell reicht schon Raw-MT, ansonsten muss eben MT-Post-Editing für die Einhaltung der Anforderungen an die linguistische Qualität sorgen. Da die linguistische Qualität je nach Prozess variieren kann, lässt sich Qualität nur schwer definieren und evaluieren.
Wie die Forschung auf diesem Gebiet dazu beiträgt, die wichtigsten diesbezüglichen Fragen zu klären, darüber haben Maribel Rodríguez, Language Technology Deployment Manager bei RWS Moravia, und Dr. Joss Moorkens gesprochen. Dr. Joss Moorkens ist Assistant Professor an der School of Applied Language and Intercultural Studies der Dublin City University und forscht am ADAPT Centre und am Centre for Translation and Textual Studies. Er hat mehr als 40 Fachartikel und Kapitel zu den Themen Übersetzungstechnologie und deren Standardisierung, Post-Editing maschinell übersetzter Texte und Benutzerevaluation maschinell übersetzter Texte verfasst.
Ein Thema des Gesprächs war die Definition und Evaluation von Qualität.
MARIBEL RODRÍGUEZ (MR): Welchen Schwerpunkt setzt du in deiner Forschungsarbeit?
JOSS MOORKENS (JM): Meine Schwerpunkte sind Übersetzungstechnologien und der menschliche Umgang mit maschineller Übersetzung. Wir arbeiten an verschiedenen Benutzeroberflächen: eine für Mobilgeräte, eine mit Touch- und Sprachfunktionen und andere, die barrierefreien Zugang bieten sollen. Des Weiteren forschen wir zu Prozessen des MT-Post-Editings und der Übersetzung sowie zur Evaluation der linguistischen Qualität.
MR: Welche wichtigen Trends machst du bei der Evaluation linguistischer Qualität aus?
JM: In den letzten Jahren hat sich die Evaluation linguistischer Qualität dahingehend geändert, als dass sie auf den jeweiligen Kunden und das jeweilige Projekt abgestimmt wird. Wir beobachten einen neuen Trend hin zu „ausreichender“ Qualität für bestimmte Zwecke und kurzlebigen Content. Einige bedingt anpassbare und vielfältig einsetzbare Metriken, wie Multidimensional Quality Metrics (MQM) und Dynamic Quality Framework (DQF), werden immer häufiger genutzt. Früher forschte man eher zu den unterschiedlichen Bewertungsmetriken für maschinelle Übersetzung. Heute kann eine Untergruppe der übergeordneten Metriken (MQM und DQF) zur Evaluation von maschineller Übersetzung oder Human-Übersetzung herangezogen werden.
JM: Und du, Maribel? Wie erlebst du diese Veränderungen hinsichtlich der linguistischen Qualität?
MR: Ich bin seit beinahe 17 Jahren in der Lokalisierungsbranche tätig und erinnere mich, dass zu Anfang meiner Karriere das Evaluationsmodell LISA Standard war – repräsentativ für den Ansatz, Qualität ließe sich quasi „von der Stange“ bewerten. Es spielte keine Rolle, ob der Kunde besonders anspruchsvoll war oder ob der Text nur kurz gebraucht wurde, zu Informationszwecken beispielsweise. Wir verwendeten die immer gleichen Metriken und Standards des manuellen Review. Heute allerdings wird alles auf den Kunden und oft sogar auf einzelne Projekte zugeschnitten. Es stehen verschiedene Qualitätsmodelle, je nach Content-Typ, und Parametersätze zur Verfügung.
JM: Neu ist auch, dass die Kombination aus hochwertigerer maschineller Übersetzung und finanzieller Notwendigkeit mehr Anwendungsfälle für maschinelle Übersetzung hervorbringt. Raw-MT wird zum Beispiel für Benutzeroberflächen getestet. In einigen Fällen könnte eine Basis-Review anstatt eines kompletten MT-Post-Editings reichen. Ob das gut ist, weiß ich nicht, aber darauf scheint es im Moment hinauszulaufen.
MR: Gibt es eine branchenweit oder akademisch allgemein anerkannte Definition der linguistischen Qualität?
JM: Nein. Die gewünschte linguistische Qualität wird auf Projektebene festgelegt. Wir suchen zwar nach Wegen, die Qualität in etwa so zu bewerten, wie es ein Mensch tun würde, doch im Allgemeinen gilt das übliche Motto beim Übersetzen: „Es kommt darauf an“. Die Qualitätsanforderungen an einen Roman unterscheiden sich von denen an eine TripAdvisor-Bewertung. Es gibt einfach jede Menge Variablen, die sich auf den Qualitätsanspruch und den Übersetzungsprozess auswirken. Vieles wird auf den Nutzen abgestimmt werden, den der Content erbringen soll, und auf das verfügbare Budget, daher bezweifle ich, dass es eine einzige übergeordnete Qualitätsdefinition geben kann.
MR: Vor welchen Herausforderungen steht die Evaluation linguistischer Qualität aktuell? Wo verschwimmt die Grenze zwischen Human-Übersetzung und maschineller Übersetzung zusehends?
JM: Die größte Herausforderung sind prädiktive Qualitätsmessungen, oder Qualitätsbeurteilungen, bei maschineller Übersetzung. Problematisch ist es, wenn sich der Preis einer maschinellen Übersetzung nach einem früheren Auftrag richtet, die Rückübersetzung aber eine stark abweichende Qualität ergibt. Oft ist es nicht möglich, den Aufwand für das MT-Post-Editing präzise finanziell einzuschätzen. Die rückwirkende Vergütung für den Zeitaufwand wäre also die beste Lösung, doch viele Sprachdienstleister scheuen sich davor.
MR: Erzähl doch etwas von deinem Buch. An wen richtet es sich und worum geht es?
JM: Das Buch hat vier Mitherausgeber: ich selbst, Sheila Castilho, Federico Gaspari – Post-Doc hier am ADAPT Centre und Dozent im süditalienischen Reggio Calabria – und Stephen Doherty, Absolvent der Dublin City University und des ADAPT Centre. Er arbeitet mittlerweile an der University of New South Wales.
Der Titel lautet Translation Quality Assessment – from Principles to Practice (Evaluation der linguistischen Qualität – vom Prinzip zur Praxis). Es richtet sich sowohl an praktizierende Sprachexperten als auch an Wissenschaftler. Darin analysieren wir aktuelle Ansätze in der Evaluation der linguistischen Qualität manueller wie maschineller Übersetzung.
Ein Kapitel handelt von den Prinzipien und Praktiken des Qualitätsmanagements in Institutionen der Europäischen Union. Joanna Drugan von der University of East Anglia sowie Rechts- und Sprachsachverständige der Europäischen Kommission haben es verfasst. Darin ist beschrieben, wie die möglicherweise größte Übersetzungsagentur der Welt bei der Evaluation linguistischer Qualität Maßstäbe setzt.
Einzelne Abschnitte behandeln Lehrinhalte, Crowd-Sourcing und linguistische Qualität sowie Anwendungsfelder für deren Evaluation, darunter MQM für Standard-Fehlertypologien. Andy Ways Kapitel beschäftigt sich mit Qualitätsansprüchen und maschineller Übersetzung sowie den zunehmend vielfältigen Anwendungsfeldern für MT. Ein anderes Kapitel handelt vom MT-Post-Editing als Unterstützung beim akademischen Schreiben: Wissenschaftler stoßen beim Verfassen ihrer Artikel, die häufig in englischer Sprache publiziert werden müssen, auf sprachliche Hindernisse. MT-Tests und eigenes MT-Post-Editing für diese Art akademischer Schriften werden beleuchtet. Und dann ist da noch ein Kapitel von Antonio Toral von der Universität Groningen zum Qualitätsniveau, das neuronale maschinelle Übersetzung (neural maschine translation, NMT) bei literarischen Texten erreichen kann.
MR: Wenn du eine Glaskugel hättest, was würde sie deiner Meinung nach über die Zukunft der Evaluation linguistischer Qualität weissagen?
JM: Qualitätsbeurteilungen werden das A und O sein. Maschinelle Übersetzung wird in immer mehr Übersetzungs-Workflows Einzug halten, also müssen wir uns überlegen, wie das am besten geschehen kann. Möglicherweise ist das MT-Post-Editing nicht die ideale Methode. Ich befragte einige Übersetzer in Irland und sie meinten, sie sähen MT eher als Ausgangspunkt, als Inspiration für die eigentliche Übersetzung eines Segments. Sie berichteten davon, schneller geworden zu sein, doch wie man das als Arbeitgeber finanziell beziffern soll, steht noch nicht fest.
Die interaktive MT-Methode einiger Lokalisierungs-Tools ergibt beim Wechsel von statistischer zu neuronaler MT nicht den Durchsatzanstieg, den wir anhand der Anzahl der erforderlichen Tastenanschläge und angesichts der Verbesserung bei anderen Qualitätsmetriken, insbesondere des Sprachflusses, erwartet haben. Deshalb wird in den nächsten fünf Jahren oder so der Fokus stärker darauf liegen, MT optimal in Workflows einzubinden, die Qualität zu bewerten und sicherzustellen, dass Fehler bei der NMT nicht im endgültigen Ergebnis auftauchen. Darüber hinaus werden wir versuchen, von der Bedeutung einer nachhaltigen Mischung aus langfristigen Vorteilen für alle Übersetzungs-Stakeholder und kurzfristigen Zielen der Vermeidung von Verschwendung und Extrakosten im Produktionsprozess zu überzeugen.
MR: Vielen Dank, Joss!
JM: Gerne doch.
Wenn Sie wissen möchten, wie sich das Ergebnis maschineller Übersetzung bewerten lässt und welche Rolle manuelle Prozesse dabei spielen, können Sie sich jederzeit an uns wenden. Unser spezielles MT-Team steht Ihnen gerne zur Seite.