Unser Trainingsprogramm für MT‑Engines: Bauch-Beine-Po für Übersetzungsmaschinen

Der Frühling steht vor der Tür. Viele Menschen erwachen aus ihrem Winterschlaf und beginnen wieder zu trainieren.

Wir bei itl finden, dass auch Übersetzungsmaschinen (MT-Engines) ein regelmäßiges Training nötig haben. Und was ist die Grundlage eines jeden Trainings? Ein guter Trainingsplan. Für eine Übersetzungsmaschine besteht dieser Trainingsplan aus folgenden Teilen:

  • Dataset-Vorbereitung (Aufwärmübungen)
  • Workout für die MT‑Engine
  • Post-Editing (Auslaufen)

Warum Übersetzungsmaschinen trainieren?

Trainierte Übersetzungsmaschinen achten neben einer hohen sprachlichen Qualität auch auf Ihre Unternehmenssprache (Terminologie, Corporate Wording). Durch ein entsprechendes Workout verbessern Sie nicht nur Ihre Übersetzungen, Sie sparen auch Zeit und Kosten.

Dataset-Vorbereitung als Aufwärmübungen

Die Localization-Engineering-Experten von itl erarbeiten mit Ihnen einen Trainingsplan, basierend auf den Daten des bestehenden Translation-Memory-Systems. Mit itl-eigenen Tools (z. B. der Language Management Plattform [i]-match) und Skripten werden Ihre Daten analysiert und die Problemzonen zum Teil automatisiert entfernt.

Bei der manuellen Noise-Entfernung und der automatischen Normalisierung liegt der Fokus auf folgenden Problemzonen:

  • Duplikate
  • Falsche Sprachpaare
  • Unicode-Blöcke
  • Wortzwischenräume (Tabulatoren, Zeilenumbrüche, Leerzeichen)
  • Zu lange Segmente (wir empfehlen max. 40 Wörter pro Segment)

Das Workout für fitte MT-Engines

Nachdem die Aufwärmübungen abgeschlossen sind, kann nun das Workout für die MT-Engine beginnen. Hierfür werden verschiedene Text-Segmente (Workout-Übungen) aufbereitet und in die MT-Engine eingespielt.

Wie umfangreich das Dataset sein muss (also wie viele Übungen das Workout enthält), ist abhängig von der jeweiligen MT-Engine. Ein Minimum von 100.000 Segmenten sollte vorhanden sein. Dieses Minimum kann mit einem Grundstock von Basis-Übersetzungen verschiedener Anbieter „aufgepolstert“ werden (wirkt wie die Proteinpulver aus dem Fitness-Fachhandel). Ohne den Grundstock werden sogar 1 Million Segmente empfohlen.

Unser Workout im Test

In Zusammenarbeit mit einem unserer Großkunden haben wir unser Workout auf die Probe gestellt. Basierend auf vorhandenen Kataloginhalten (kurze, fragmentierte, Terminologie-lastige Texte) wurden folgende Schritte durchgeführt:

1. Schritt: Übersetzen der vorhandenen Daten mit einer generische MT-Engine

Ergebnis: Die Übersetzungen waren inkonsistent und entsprachen nicht der Unternehmensterminologie.

2. Schritt: Aufbereitung der Daten aus dem Translation Memory und Erweiterung um einen Grundstock von Basis-Übersetzungen

Ergebnis: Dataset zum Trainieren der MT-Engine

3. Schritt: Einspeisen des Datasets in eine trainierbare MT-Engine

4. Schritt: Prüfung der Ergebnisse mit dem itl-Analyseverfahren "MT-Faktor®"

5. Schritt: Verifizieren der Ergebnisse durch Post-Editoren und Prüfleser

Die Übersetzungen der trainierbaren MT-Engine konnten im Test komplett überzeugen, da die kundenspezifischen Fachbegriffe viel besser abgebildet wurden.

Individuelles Training ist der Schlüssel zum Erfolg

Die Vorteile von generischen MT-Engines (z. B. Google Translate oder DeepL) liegen bei sehr umfangreichen, eher allgemeinen Texten, bei denen ein sprachlich ansprechendes und gesamtheitlich korrektes Ergebnis im Vordergrund steht. Die im Text verteilten Fachbegriffe lassen sich im Post-Editing nachträglich problemlos anpassen. Solch ein Allround-Athlet wird auf Dauer allerdings im Mittelmaß hängen bleiben.

Wenn Sie in verschiedenen Bereichen aufs Podium wollen, sollten Sie sich ein Team von Spezialisten zusammenstellen, z. B. einen Gewichtheber (für Katalogtexte) und einen Sprinter (für Werbetexte). Durch das individuelle Training kann jede MT-Engine genau dort eingesetzt werden, wo sie erfolgreich ist und Ihnen die besten Ergebnisse liefert. Oder würden Sie von einem Gewichtheber erwarten, dass er die Goldmedaille im 100-m-Sprint holt?

Das ist mir dann doch zu anstrengend ...

Sie sind noch nicht bereit für ein Full Data Workout? Oder erfüllt ein guter Allrounder auch Ihre Anforderungen? Kein Problem. Auch mit einer generischen MT-Engine und einem nachgelagerten Post-Editing können Sie gute Ergebnisse erzielen. Egal, ob generische oder trainierbare MT-Engines – die Localization-Engineering-Experten von itl begleiten Sie bei jedem Schritt. Die Evaluierung von Inhalten auf ihre Tauglichkeit für maschinelle Übersetzung lässt sich dank des MT-Faktors® von itl mit überschaubaren Aufwänden umsetzen. Wir unterstützen Sie bei der Auswahl der passenden MT-Engine und prüfen dabei auch, wo die Server stehen und wie die entsprechenden Datenspeicherkonzepte aussehen.

Folgen Sie uns...

...um laufend über neue Blog-Artikel und Videos informiert zu werden!

Kommentar schreiben

Kommentar schreiben

* Diese Felder sind erforderlich

Kommentare

Kommentare

Keine Kommentare