Ganz einfach Wörter für den Wortschatz identifizieren – Term‑Extraktion mit [i]‑match, der Plattform für Terminologiemanagement

Diese Fragestellung soll uns helfen den Einstieg in die Term‑Extraktion (oder Terminologie-Extraktion) zu meistern und eine grobe Einteilung von Vorüberlegungen und Methoden herzuleiten. Jeder Anfang ist dabei nicht nur „schwer“ sondern auch unterschiedlich. Eine übersetzungsbezogene Term-Extraktion arbeitet sowohl mit anderen Textquellen als auch mit anderen Methoden als eine einsprachige Term‑Extraktion. Die einsprachige Term-Extraktion kann vor einer Übersetzung stattfinden oder gänzlich unabhängig vom Übersetzungskontext eingesetzt werden, z. B. zur Fachgebietserschließung oder um einen Terminologie‑Styleguide zu erstellen.

Grundsätzlich lässt sich sagen, dass die Term-Extraktion einzelne Fachbegriffe aus (mindestens) einem Kontextdokument entnimmt, um die gesammelten Terme unabhängig von einem Dokument weiterzuverarbeiten. Die Fachbegriffe können automatisch oder händisch ausgewählt werden.

Händische Extraktionen sind unter folgenden Umständen von Vorteil:

  • Extraktionsquelle enthält eine große Menge an Text, d.h. die automatische Extraktion würde zu viele Kandidaten und dadurch kein aussagekräftiges Ergebnis liefern
  • Extraktionsquelle ist besonders klein, d.h. eine automatische Extraktion ist nicht signifikant schneller
  • Automatische Extraktionsalgorithmen bieten jedoch folgende Vorteile:
  • linguistische Erkennung
    • statistische Analyse (wie häufig kommt eine Zeichenkette vor)
    • Gewichtungen oder Filterungen von vorherigen Beständen anbieten
    • Entscheidend ist am Ende, was herauskommt, wenn man eine gewisse Zeit investiert. Bei Term-Extraktionen sollte man sich daher, ähnlich wie im Sesamstraßen-Song, auch fragen:

Die Antwort darauf kann sehr unterschiedlich ausfallen. Häufig geht es bei der Term-Extraktion um einzelne Substantive, z. B. „Lösung“, aber auch dazugehörige Adjektive wie „basische Lösung“ können ausgewählt werden. Es gibt Wörter, die weitestgehend nicht als einzelne Einträge in Term-Datenbanken aufgenommen werden: Präpositionen, Artikel, Zahlenwörter. Aber sollen Verben und/oder Adjektive aufgenommen werden? Das alles sind Punkte, die es zu überlegen gilt. Entscheidend ist, welche Absicht hinter der Terminologie-Sammlung steht. Es gibt auch Szenarien, in denen verschiedene Einträge parallel erfasst werden sollten.

Bei übersetzungsbezogenen Term-Extraktionen geht es darum, Variationen und v. a. Mehrdeutigkeiten in der Übersetzung zu vermeiden. Hier ist die Unterstützung durch einen fachkundigen Übersetzer hilfreich, der verschiedene Varianten einer Übersetzung in der Zielsprache kennt und die zu vermeidenden Missverständnisse antizipieren kann.

[i]-match bietet zwei Möglichkeiten der Terminologie-Extraktion:

  • manuelle Extraktion in einem geöffneten Dokument, zum Beispiel in Microsoft Word
  • teil-automatisierte Extraktion durch KI-gestützte Kandidatenvorauswahl als Teil eines Import-Projekts 
 manuell (im Dokument)teil-automatisiert (auf KI-Basis)
Übersetzungsbezogene Term-Extraktion (mehrere Sprachen gleichzeitig)janein
Hinweis auf vorhandene Termini in der Datenbankjaja
Vorausgewählte Kandidatenneinja

Die Benutzeroberfläche von [i]-match macht es sehr einfach, Wörter aus einem Dokument als Terme für die Datenbank vorzuschlagen. Gibt es jedoch einen der identifizierten Terme bereits in der Datenbank, wird dies durch einen Tool-Tipp angezeigt. In [i]-match können zu jedem Term-Vorschlag folgende Informationen direkt bei der Erstellung mitgeliefert werden:

  • Sprache des Terms
  • Verwendung (bevorzugt, erlaubt, verboten)
  • Synonyme, inkl. Verwendung (bevorzugt, erlaubt, verboten)
  • Kommentar, um Rückfragen in folgenden Prozessschritten zu reduzieren (je Sprache)

Besonders bei mehrsprachigen Dokumenten erleichtert die manuelle Extraktion die Arbeit. Wenn ein Übersetzer mehrerer Sprachen mächtig ist, kann er alle Terme eines Dokuments umgehend für die Datenbank vorschlagen, ohne immer wieder das Tool wechseln zu müssen. Durch die gleichzeitige Mehrsprachigkeit der Term-Vorschläge können außerdem unerwünschte Dubletten reduziert werden.

Tipp!

Bei der manuellen Extraktion aus einer zweisprachigen Datei (z. B. TMX) können die Terme mit Copy-and-paste zu Begriffen zusammengeführt werden. 

 

Bei der teil-automatisierten Term-Extraktion werden sprachbezogene Algorithmen angewendet und aus einem großen Dokument geeignete Kandidaten vorbereitet. Die aktuelle Version von [i]‑match ist dafür optimiert in einzelnen Sprachen entsprechende Terminologie-Kandidaten zu identifizieren. Entsprechend der jeweiligen Sprache werden unterschiedliche Algorithmen angewendet, z. B. um Mehrwort-Terme zu erkennen.

Die automatisch identifizierten Kandidaten können in drei Ansichten dargestellt werden:

  • als Liste
  • markiert im Kontext des Dokuments
  • im Fokusmodus

Einen Terminologie-Bestand zu pflegen lohnt sich im Sinne einer konsistenten Qualität eigentlich immer. Ganz besonders nützlich ist es aber insbesondere bei Dokumenten mit wenigen Kontextinformationen (z.B. Kataloge oder Stücklisten). Bei kontextarmen Texten kommt es häufig zu folgenden Problemen:

  • viele Rückfragen: Die Benennung wird in der Zielsprache zwar nicht frei übersetzt, die Übersetzung ist allerdings zeitintensiv.
  • keine Rückfragen: Die Übersetzung wird zwar schnell geliefert, allerdings kann es zu ungewünschten Zwischenergebnissen und Nacharbeiten kommen, die nicht einkalkuliert wurden.
  • Bei maschineller Übersetzung kann es im Post-Editing zu hohen Nachbearbeitungsaufwänden kommen.
  • Kontextinformationen müssen zeitintensiv erfasst werden: Wenn z. b. eine PDF als Referenz vorliegt, muss die PDF parallel zum Übersetzungsprozess geprüft werden.

Die Benennungen aus Katalogen und Stücklisten werden idealerweise auch in anderen Publikationen genutzt, damit eine gewisse Konsistenz innerhalb des gesamten Unternehmens besteht. Wenn in allen Dokumenten dieselbe Benennung verwendet wird, können Leserinnen und Leser direkt erfassen, ob es sich um denselben Gegenstand handelt.

Ein gepflegter Terminologie-Bestand kann ebenfalls helfen eine MT-Engine zu trainieren (siehe Blog-Beitrag "Unser Trainingsprogramm für MT-Engines" von Carina Mayr)

Es gibt jedoch Wörter und Formulierungen, bei denen die Bedeutung nicht sofort klar ist.

  • Mit dem Ablauf wird die Restflüssigkeit dem Brauchwasserzyklus zurückgeführt.
  • Die Flüssigkeit fließt durch den Ablauf.
  • Der Ablauf wird durch den Abguss gespült.

Wird das Wort Ablauf hier konsistent verwendet? Und meint Ablauf hier immer denselben Sachverhalt? Dieser Frage auf den Grund zu gehen kostet Zeit. Meist kann nur der Ersteller die Frage nach der Konsistenz beantworten. Entsprechend schließt sich die nächste Frage an:

Bei der Erstellung und Überarbeitung von Texten hilft die Term-Extraktion, indem sie neben dem eigentlichen Text auch die Fachbegriffe erfasst. Durch diese zweigleisige Extraktion können Beziehungen (z. B. Synonymie) und konkrete Definitionen von Termen direkt bei der Texterfassung initiiert werden. Die gesammelten Informationen haben eine viel längere Haltbarkeit und eine bessere Übertragbarkeit als der einzelne Text. Die Terminologie kann nun dokumentübergreifend eingesetzt werden und hilft letztendlich auch bei der Übersetzung.

Die teil-automatisierte Term-Extraktion hilft Redakteuren dabei, einen Überblick der Fachbegriffe eines oder mehrerer Dokumente zu erhalten, die gewünschten Vorzugsbenennungen auszuwählen und die zentralen Begriffe zu definieren. Durch die Klärung der zentralen Begriffe können die Zusammenhänge zwischen einzelnen Bestandteilen einer größeren Maschine oder Anlage sehr viel besser verstanden werden. Die teil-automatisierte Term-Extraktion eignet sich daher besonders zur Einarbeitung und um einen ersten Überblick der Fachbegriffe zu erhalten.

Die manuelle Term-Extraktion kann genutzt werden, um in konkreten Textstellen zu prüfen, ob der enthaltene Text den definierten Vorzugsbenennungen entspricht und dazu genutzt werden, neue Kandidaten zu identifizieren und einzeln zur Datenbank hinzuzufügen. Die manuelle Term-Extraktion ist also bei einer kontinuierlichen Arbeit besonders hilfreich, weil die Term-Kandidaten "on-the-fly" identifiziert werden.

Um die Verwendung von Begriffen zu validieren und die dazugehörigen Definitionen einzutragen, kann die entstandene Kandidatenliste nach Excel exportiert und anschließend einem Übersetzer oder Produktmanager zur Verfügung gestellt werden. Durch eine solche Kandidatenliste kann die Zuordnung von Inkonsistenzen zu einem Begriff leicht erfolgen.  Noch schneller ist der Weg, wenn direkter Zugriff auf [i]-match geteilt wird.

Lohnend ist auch ein Blick in die 'technische kommunikation' 02/2021 mit einem Beitrag über die Verwendung von Excel beim Aufbau einer Terminologie von Beate Früh, Markus Nickl und David Bodensohn. Ein Einsatz von Excel ist in den meisten Situationen unproblematisch, sollte jedoch mit zunehmender Menge an Einträgen reduziert werden.

Wenn alle Beteiligten bereits [i]-match nutzen, können die Kandidatenlisten auch direkt in [i]‑match geteilt und kommentiert werden.

Erfahren Sie mehr über die Anwendungsszenarien in den [i]‑match Toolpräsentationen, die jeden 2. Mittwoch im Monat stattfinden oder kontaktieren Sie uns für einen individuellen Termin.

Alle Infos zu [i]-match, der Language Management Plattform, finden Sie hier: [i]‑match

Kommentar schreiben

Kommentar schreiben

* Diese Felder sind erforderlich

Kommentare

Kommentare

Keine Kommentare