Fuzzy Matches, Wiederholungen und No Match – Mengenanalyse mit Translation-Memory-Systemen

Translation Memory-Systeme (TMS) sind heutzutage Standard­werkzeuge für die Anfertigung von Übersetzungen. Dies wirkt sich auch auf die Kalkulation von Übersetzungs­leistungen aus. Während früher einfach die Text­menge des zu über­setzenden Textes ermittelt wurde, enthalten Angebote heutzutage oft eine Vielzahl von verschiedenen Informationen über die Redundanz im Ausgangstext. Doch was bedeutet dies eigentlich?

Translation Memory-Systeme sind grob gesagt Datenbanken, in denen die Übersetzungen von Übersetzern gespeichert werden. Die Datenbanken mit den Übersetzungen nennt man Translation Memorys. Die Übersetzungen werden dabei in Sinneinheiten (Segmenten) bilingual abgelegt.

Bei der Analyse eines neu zu übersetzenden Ausgangstextes wird nun auch dieser Text in Segmente zerteilt und für jedes Segment wird geprüft ob es bereits in der Datenbank enthalten ist. Dabei können die TMS nicht nur identische Segmente ermitteln, sondern über verschiedene Algorithmen auch ähnliche Segmente finden. Die Ähnlichkeit wird mit einem sogenannten Fuzzy-Wert angegeben. Je höher dieser Wert, desto ähnlicher sind die Segmente. Segmente die nicht in der Datenbank gefunden werden, bezeichnet man als No Match, also kein Treffer. Segmente die genau identisch zu einem Eintrag im Translation Memory sind, nennt man 100%-Matches.

Moderne TMS gehen noch einen Schritt weiter. Die sogenannten 101%-Matches sind diejenigen Matches, die nicht nur identischen Textinhalt aufweisen, sondern auch im umgebenden Kontext gleich sind. Sie werden, je nach TMS auch Context Match oder ICE-Match genannt. Der Kontext­vergleich wird über die Segmente in der Umgebung des geprüften Elements und sofern verfügbar auch über weitere Metainformationen wie beispielsweise der Strukturinformation ermittelt. Und es gibt auch noch Perfect Matches. Hierbei wird der Ausgangstext nicht mit den Übersetzungen aus einem Translation Memory verglichen, sondern es wird ein anderes Dokument herangezogen. Das könnte beispielsweise eine vorherige Version des Ausgangstextes sein. Schließlich wird noch die Redundanz ermittelt, die sich innerhalb eines Ausgangstextes befindet. Hier heißen die 100%-Matches dann Wiederholungen oder Repetitions.

Bei 100%-Matches kann es vorkommen, dass trotz identischem Ausgangstext eine vom Translation Memory abweichende Übersetzung verwendet werden muss. Dies liegt häufig am Kontext des Segmentes. Eine Überschrift wird möglicherweise anders zu übersetzen sein, als der gleiche Text als Bildunterschrift, Aufzählungselement oder Handlungsanweisung. Aus diesem Grund sollten 100%-Matches vom Übersetzer zumindest noch einmal überprüft werden, während man bei den 101%-Matches davon ausgeht, dass man sie auch ungeprüft übernehmen kann.

Bei der Kalkulation von Übersetzungsleistungen erwartet man nun weniger Übersetzungsaufwand wenn der Übersetzer viele Vorschläge aus dem Translation Memory bekommt. D.h. je mehr Matches es gibt und je höher die Ähnlichkeit ist, desto geringer sollte der Übersetzungsaufwand sein. Dies wird oft durch reduzierte Preise für die einzelnen Matchklassen abgebildet. Damit der Einsatz eines Translation Memorys tatsächlich zu einem geringeren Übersetzungsaufwand führt, müssen die Inhalte des verwendeten Translation Memorys von guter Qualität sein. Dies betrifft sowohl die Korrektheit der Übersetzung als auch die konsistente Verwendung von Stil und Terminologie in den gespeicherten Übersetzungen des Translation Memorys.