Die Zukunft der Evaluation der linguistischen Qualität: Interview mit Dr. Joss Moorkens

Lee Densmer 16. Dez. 2020
Die Zukunft der Evaluation der linguistischen Qualität: Interview mit Dr. Joss Moorkens
Angesichts einer immer regeren Inter­aktion zwischen Ver­brauchern und den Pro­dukten und An­geboten von Unter­nehmen sind immer größere Men­gen an Content zu über­setzen. Die Ver­braucher erwarten Produkt­beschreibungen, Be­wertungen, Online-Hilfen und sogar Social-Media-Beiträge … und Unter­nehmen täten gut daran, all dies in mehreren Sprachen zur Ver­fügung zu stellen. Die Aufgabe, diese Menge an Content schnell bereit­zustellen, lässt maschinelle Übersetzung (MT) oft attraktiv wirken. Doch liefert sie aus­reichend gute Qualität? Eventuell reicht schon Raw-MT, an­sonsten muss eben MT-Post-Editing für die Ein­haltung der An­forderungen an die linguistische Qualität sorgen. Da die linguistische Qualität je nach Prozess variieren kann, lässt sich Qualität nur schwer de­finieren und evaluieren. Wie die Forschung auf diesem Ge­biet dazu bei­trägt, die wich­tigsten dies­bezüglichen Fragen zu klären, darüber haben Maribel Rodríguez, Language Technology Deployment Manager bei RWS Moravia, und Dr. Joss Moorkens gesprochen. Dr. Joss Moorkens ist Assistant Professor an der School of Applied Language and Inter­cultural Studies der Dublin City University und forscht am ADAPT Centre und am Centre for Translation and Textual Studies. Er hat mehr als 40 Fachartikel und Kapitel zu den Themen Über­setzungs­technologie und deren Standardisierung, Post-Editing maschinell über­setzter Texte und Benutzer­evaluation maschinell über­setzter Texte verfasst. Ein Thema des Gesprächs war die Definition und Evaluation von Qualität. MARIBEL RODRÍGUEZ (MR): Welchen Schwer­punkt setzt du in deiner Forschungs­arbeit? JOSS MOORKENS (JM): Meine Schwer­punkte sind Über­setzungs­technologien und der menschliche Umgang mit maschineller Übersetzung. Wir arbeiten an ver­schiedenen Benutzer­oberflächen: eine für Mobil­geräte, eine mit Touch- und Sprach­funktionen und andere, die barriere­freien Zu­gang bieten sollen. Des Weiteren forschen wir zu Pro­zessen des MT-Post-Editings und der Über­setzung sowie zur Evaluation der linguistischen Qualität. MR: Welche wichtigen Trends machst du bei der Evaluation linguistischer Qualität aus? JM: In den letzten Jahren hat sich die Evaluation linguistischer Qualität dahin­gehend ge­ändert, als dass sie auf den je­weiligen Kunden und das je­weilige Projekt ab­gestimmt wird. Wir beo­bachten einen neuen Trend hin zu „aus­reichender“ Qualität für be­stimmte Zwecke und kurz­lebigen Content. Einige be­dingt an­passbare und viel­fältig ein­setzbare Metriken, wie Multidimensional Quality Metrics (MQM) und Dynamic Quality Framework (DQF), werden immer häufiger genutzt. Früher forschte man eher zu den unter­schiedlichen Be­wertungs­metriken für maschinelle Übersetzung. Heute kann eine Unter­gruppe der über­geordneten Metriken (MQM und DQF) zur Evaluation von maschineller Über­setzung oder Human-Übersetzung heran­gezogen werden. JM: Und du, Maribel? Wie er­lebst du diese Ver­änderungen hin­sichtlich der linguistischen Qualität? MR: Ich bin seit beinahe 17 Jahren in der Lo­kalisierungs­branche tätig und er­innere mich, dass zu An­fang meiner Karriere das Evaluations­modell LISA Standard war – re­präsentativ für den An­satz, Qualität ließe sich quasi „von der Stange“ bewerten. Es spielte keine Rolle, ob der Kunde be­sonders an­spruchsvoll war oder ob der Text nur kurz ge­braucht wurde, zu Informations­zwecken beispiels­weise. Wir ver­wendeten die immer gleichen Metriken und Standards des manuellen Review. Heute aller­dings wird alles auf den Kunden und oft sogar auf einzelne Projekte zu­geschnitten. Es stehen ver­schiedene Qualitäts­modelle, je nach Content-Typ, und Parameter­sätze zur Verfügung. JM: Neu ist auch, dass die Kom­bination aus hoch­wertigerer maschineller Über­setzung und finanzieller Not­wendigkeit mehr Anwendungs­fälle für maschinelle Über­setzung hervor­bringt. Raw-MT wird zum Beispiel für Benutzer­oberflächen getestet. In einigen Fällen könnte eine Basis-Review anstatt eines kompletten MT-Post-Editings reichen. Ob das gut ist, weiß ich nicht, aber darauf scheint es im Moment hinauszulaufen. MR: Gibt es eine branchen­weit oder akademisch all­gemein an­erkannte Definition der linguistischen Qualität? JM: Nein. Die gewünschte linguistische Qualität wird auf Projekt­ebene festgelegt. Wir suchen zwar nach Wegen, die Qualität in etwa so zu be­werten, wie es ein Mensch tun würde, doch im All­gemeinen gilt das übliche Motto beim Übersetzen: „Es kommt darauf an“. Die Qualitäts­anforderungen an einen Roman unter­scheiden sich von denen an eine TripAdvisor-Bewertung. Es gibt einfach jede Menge Variablen, die sich auf den Qualitäts­anspruch und den Übersetzungs­prozess auswirken. Vieles wird auf den Nutzen ab­gestimmt werden, den der Content er­bringen soll, und auf das ver­fügbare Budget, daher be­zweifle ich, dass es eine einzige über­geordnete Qualitäts­definition geben kann. MR: Vor welchen Heraus­forderungen steht die Evaluation linguistischer Qualität aktuell? Wo ver­schwimmt die Grenze zwischen Human-Übersetzung und maschineller Übersetzung zusehends? JM: Die größte Herausforderung sind prädiktive Qualitäts­messungen, oder Qualitäts­beurteilungen, bei maschineller Übersetzung. Problematisch ist es, wenn sich der Preis einer maschinellen Übersetzung nach einem früheren Auftrag richtet, die Rück­übersetzung aber eine stark ab­weichende Qualität ergibt. Oft ist es nicht möglich, den Auf­wand für das MT-Post-Editing präzise finanziell ein­zuschätzen. Die rück­wirkende Ver­gütung für den Zeit­aufwand wäre also die beste Lösung, doch viele Sprach­dienstleister scheuen sich davor. MR: Erzähl doch etwas von deinem Buch. An wen richtet es sich und worum geht es? JM: Das Buch hat vier Mit­herausgeber: ich selbst, Sheila Castilho, Federico Gaspari – Post-Doc hier am ADAPT Centre und Dozent im süd­italienischen Reggio Calabria – und Stephen Doherty, Absolvent der Dublin City University und des ADAPT Centre. Er arbeitet mittler­weile an der University of New South Wales. Der Titel lautet Translation Quality Assessment – from Principles to Practice (Evaluation der linguistischen Qualität – vom Prinzip zur Praxis). Es richtet sich sowohl an praktizierende Sprachexperten als auch an Wissenschaftler. Darin ana­lysieren wir aktuelle An­sätze in der Evaluation der linguistischen Qualität manueller wie maschineller Übersetzung. Ein Kapitel handelt von den Prinzipien und Praktiken des Qualitäts­managements in Institutionen der Europäischen Union. Joanna Drugan von der University of East Anglia sowie Rechts- und Sprach­sachverständige der Europäischen Kommission haben es verfasst. Darin ist beschrieben, wie die möglicherweise größte Übersetzungs­agentur der Welt bei der Evaluation linguistischer Qualität Maßstäbe setzt. Einzelne Abschnitte be­handeln Lehr­inhalte, Crowd-Sourcing und linguistische Qualität sowie Anwendungs­felder für deren Evaluation, darunter MQM für Standard-Fehler­typologien. Andy Ways Kapitel beschäftigt sich mit Qualitäts­ansprüchen und maschineller Über­setzung sowie den zu­nehmend viel­fältigen Anwendungs­feldern für MT. Ein anderes Kapitel handelt vom MT-Post-Editing als Unter­stützung beim akademischen Schreiben: Wissen­schaftler stoßen beim Verfassen ihrer Artikel, die häufig in eng­lischer Sprache pub­liziert werden müssen, auf sprach­liche Hinder­nisse. MT-Tests und eigenes MT-Post-Editing für diese Art akademischer Schriften werden be­leuchtet. Und dann ist da noch ein Kapitel von Antonio Toral von der Universität Groningen zum Qualitäts­niveau, das neuronale maschinelle Über­setzung (neural maschine translation, NMT) bei literarischen Texten erreichen kann. MR: Wenn du eine Glaskugel hättest, was würde sie deiner Meinung nach über die Zukunft der Evaluation linguistischer Qualität weissagen? JM: Qualitätsbeurteilungen werden das A und O sein. Maschinelle Über­setzung wird in immer mehr Übersetzungs-Workflows Ein­zug halten, also müssen wir uns über­legen, wie das am besten geschehen kann. Möglicher­weise ist das MT-Post-Editing nicht die ideale Methode. Ich befragte einige Übersetzer in Irland und sie meinten, sie sähen MT eher als Ausgangs­punkt, als Inspiration für die eigent­liche Über­setzung eines Segments. Sie be­richteten davon, schneller ge­worden zu sein, doch wie man das als Arbeit­geber finanziell be­ziffern soll, steht noch nicht fest. Die interaktive MT-Methode einiger Lokalisierungs-Tools ergibt beim Wechsel von statistischer zu neuronaler MT nicht den Durch­satz­anstieg, den wir an­hand der An­zahl der er­forderlichen Tasten­anschläge und an­gesichts der Ver­besserung bei anderen Qualitäts­metriken, insbesondere des Sprach­flusses, er­wartet haben. Deshalb wird in den nächsten fünf Jahren oder so der Fokus stärker darauf liegen, MT optimal in Workflows ein­zubinden, die Qualität zu be­werten und sicher­zustellen, dass Fehler bei der NMT nicht im end­gültigen Er­gebnis auf­tauchen. Darüber hinaus werden wir ver­suchen, von der Be­deutung einer nach­haltigen Mischung aus lang­fristigen Vor­teilen für alle Übersetzungs-Stakeholder und kurz­fristigen Zielen der Ver­meidung von Ver­schwendung und Extra­kosten im Produktions­prozess zu überzeugen. MR: Vielen Dank, Joss! JM: Gerne doch. Wenn Sie wissen möchten, wie sich das Er­gebnis maschineller Über­setzung be­werten lässt und welche Rolle manuelle Prozesse dabei spielen, können Sie sich jeder­zeit an uns wenden. Unser spezielles MT-Team steht Ihnen gerne zur Seite.
Lee Densmer
AUTOR

Lee Densmer

Lee Densmer ist seit 2001 in der Lokalisierungsbranche tätig. Sie begann als Projektmanagerin und wechselte dann zu Lösungsarchitektur und Marketing-Management. Wie viele Lokalisierungsexperten kam auch sie durch ihr Sprachinteresse und ihre linguistische Ausbildung zu diesem Bereich. Sie hat einen Master-Abschluss in Linguistik von der University of Colorado. Lee Densmer lebt in Idaho und unternimmt gern Auslandsreisen und Ausflüge in die umliegenden Berge.
Alle von Lee Densmer