Text-to-Speech: Der digitale Vorleser kombiniert Stock Voices mit künstlicher Intelligenz

Seit rund vier Jahrzehnten begleitet itl Ihre Projekte mit dem Ziel Ihre Kunden erfolgreich anzusprechen – in Text, Bild und Video. In enger Zusammenarbeit erstellen und optimieren wir mit Ihnen jegliche Art von Content und kümmern uns um die Übersetzung bis hin zur Lokalisierung.

Die Expertise für Content-Erstellung und -Übersetzung haben wir seit den Anfangstagen von itl kontinuierlich aufgebaut. Bei der Vertonung der Materialien, z. B für Schulungsvideos, haben wir starke Partner gewählt, die uns mit erfahrenen Sprechern und professionellem Audio-Mastering unterstützen. Insbesondere für eine emotionale Ansprache ist es hilfreich und wichtig, Sprechexperten im Projektteam zu wissen. Diese Expertise werden wir auch in Zukunft nutzen.

Neuerdings arbeiten wir im Rahmen unseres itl digital ecosystem (iDES) jedoch an einem Projekt, das sich gerade vom Reifegrad Sandbox zu Incubating entwickelt hat:

Text-to-Speech (TTS) als Kombination von Stock Voices und neuronaler KI

Das Reifegradmodell im Startup-Incubator von itl

Projekte im Startup-Incubator werden je nach Entwicklungsstand in Sandbox, Incubating und Graduated eingeteilt.

  • Sandbox-Projekte haben zwar ein definiertes Ziel und einen fixen Zeitrahmen, dienen aber eher dazu viele Möglichkeiten auszutesten. Da es noch keine fertige Lösung gibt, begeben wir uns in den metaphorischen Sandkasten und entwickeln einen Ansatz, der wie Sand auch einfach zusammenfallen kann, dabei aber kein großes Risiko birgt. Im besten Fall aber erreicht das Projekt den nächsten Reifegrad.
  • Incubating-Projekte haben mehrere Sandbox-Projekte durchlaufen und damit alle „Kinderkrankheiten“ durchlebt. Die Herangehensweise ist in den jeweiligen Projektrahmen praxiserprobt und kann inzwischen robust eingesetzt werden. Weitere Projektschritte werden angegangen und standardisierbare Verfahren entwickelt.
  • Graduated-Projekte haben mehrere Incubating-Projekte durchlebt und die Herangehensweise ist einfach wiederzuverwenden. Viele Projektschritte sind automatisierbar und standardisiert. Auch diese Projekte entwickeln sich weiter durch den Fokus auf erweiterte Anwendungsfälle. Sie sind häufig Ausgangspunkt für weitere Sandbox-Projekte, in denen eine schon erprobte Technologie in einem anderen Kontext oder neu kombiniert eingesetzt wird.

Text-to-Speech (TTS) – Aus Text mach Ton

Das Thema Vertonung gewinnt zunehmend an Bedeutung und Anfragen erreichen uns deutlich häufiger. Viele Anfragen kommen mit der Herausforderung, schneller produzieren zu wollen und größere Mengen an Text und Video zu vertonen als bisher. Gemeinsam mit einem Entwicklerteam aus der Abteilung „Intelligent Solutions“ haben wir eine Methode erarbeitet, Vertonung nicht nur schnell umzusetzen, sondern auch an Ihre Corporate Language und Ihr Klangbild anzupassen: den digitalen Vorleser.

Der Einsatz von gesprochener Stimme hat einen großen Vorteil gegenüber (nur) geschriebenem Text: Man kann die Information erfassen, während die Hände schon bei der Bedienung sind, z. B. bei Schulungsmaterialien oder Handlungsanweisungen. Gesprochene Erklärungen können die visuelle Darstellung (z. B. in einem Video) sehr gut ergänzen, geschriebener Text muss zusätzlich erfasst und verarbeitet werden.

Immer einen Schritt nach dem anderen gehen

Im Startup-Incubator führen wir Kundenprojekte durch, bei denen wir neueste KI-Algorithmen für eine Text-to-Speech-Lösung einsetzen. Der Rahmen dieser Projekte legt den Fokus darauf, mit den Kundenanforderungen eine skalierbare, günstige Lösung zu entwickeln, die auf unserem Reifegradmodell basiert. Die Zielformulierung bleibt flexibel durch einen kurzen Projektzeitraum. Die Erfahrungen aus einem ersten Projektschritt werden in den nächsten übernommen. Dazu bedienen wir uns zuerst verfügbarer Standardlösungen und individualisieren sie anhand spezifischer Anforderungen und Erfahrungen in der Umsetzung. Im Falle der Vertonung wird daher zuerst eine Stock-Voice verwendet. Stock Voice bedeutet, das Klangspektrum der Engine ist unspezifisch trainiert für die allgemeine Aussprache in einer Sprache (z. B. Deutsch). Es gibt dabei nicht nur eine Stock Voice für eine Sprache, sondern schon hier kann die Sprechgeschwindigkeit und das Geschlecht der Stimme ausgewählt werden. Die Stock Voice ist allerdings nicht auf sämtliche Texte und spezifische Terminologie vorbereitet, durch die Anpassung der Stock Voice entsteht der digitale Vorleser für Ihr Unternehmen.

Ein Beispiel aus der Praxis

Schauen wir uns an einem kleinen itl-Projekt an, wie wir bei der Vertonung von Texten vorgehen. Zunächst haben wir einen Text verfasst, der für ein Info-Video verwendet werden soll. Bei dem Video geht es um das neue itl digital eco system (iDES).

Die technischen Daten unseres Projekts:

  • Textlänge: 340 Wörter
  • Sprache: Deutsch
  • Laufzeit des ersten Output-Soundfiles: 3:08 min
  • Technologie: Neuronales KI-Modell von itl

Der Text wird zunächst mit einer Stock-Voice-TTS-Engine verarbeitet. Anschließend kommt die erste Kontrolle, wir beginnen mit dem Probehören. Während des Probehörens markieren wir die Stellen in der Vertonung, die noch nicht so klingen, wie wir es uns wünschen. In unserem Test wurden nur wenige Stellen von der Stock Voice nicht wie gewünscht wiedergegeben – folgend ein paar Beispiele:

  • Komposita aus englischen und deutschen Wörtern (z. B. „Cloud Native-Anwendung“, „Best-Practice-Lösungen“)
  • Abkürzungen oder als Abkürzungen erkannte Wörter (z. B. „iDES“, „PIM“, „KI-Lösung“)
  • englische Wörter, die nicht im typischen deutschen (Schrift-)Wortschatz vorkommen (z. B. „streamlinen“, „Sandbox“, „Incubating“, „Graduated“)

Im Gegensatz zu den kleineren Unschönheiten, hat uns folgendes positiv überrascht:

  • kurze Sprechpausen nach Einschüben, Kommata und Ellipsen („die an der Erstellung, Lokalisierung, Verteilung und Verwaltung von Content beteiligt sind, und deckt alle Formen von Content (nicht nur Dokumente) ab.“, „Content-Erstellung, -Verwaltung und -Verteilung“)
  • Wechsel von Deutsch auf Englisch für einzelne Begriffe („agile“, „Cloud Native“)

<best ˈpræktɪs> oder Text in Lautschrift

Nach dem ersten Probehören geht es darum, die Vertonung zu optimieren und die TTS-Engine zu verbessern. Es gibt verschiedene Eingriffsmöglichkeiten:

  • Satz umstellen
  • Wort ersetzen
  • Satzzeichen ändern
  • Groß-/Kleinschreibung ändern

Oft erreichen TTS-Engines bereits ein besseres Ergebnis, wenn der Satz umgestellt wird. Kniffliger wird es, wenn spezifische Begriffe vorkommen. Der itl-Ansatz für Text-to-Speech ermöglicht hier den Einsatz der IPA-Lautschrift (IPA= International Phonetic Alphabet, ein phonetisches Alphabet). Wir ersetzen den Originaltext durch diese Lautschrift – „Best-Practice“ wird zu <best ˈpræktɪs>.

Gibt man anstelle von „Best-Practice“ <best ˈpræktɪs> in den Satz ein, wird die TTS-Engine den Satz anders wiedergeben. Der Einsatz von IPA-Zeichen ist nicht trivial, aber ermöglicht sehr kontrollierte Eingriffe an einzelnen Stellen. Mit Hilfe von [i]-match können wir die Lautschrift auch in der Terminologiedatenbank in den Eintrag „Best-Practice“ aufnehmen. Anschließend können wir bei der Dokumentprüfung die vorhandene Textstelle durch die IPA-Lautschrift ersetzen. Diese Methode hilft, die Kernbegriffe dokument-übergreifend korrekt aussprechen zu lassen.

Große Lösungen beginnen im Kleinen

Unser Fazit nach den ersten Beispielprojekten ist positiv. Die größten Aufwände bei der Vertonung, z. B. die Buchungskosten eines Tonstudios, werden beseitigt. Zwar lassen sich emotionale Botschaften mit einer echten Stimme gefühlt besser vermitteln, aber für den Einsatz im Bereich der Technischen Dokumentation ist eine generische Stimme meist eine sehr gute Alternative. Besonders bei klaren Handlungsanweisungen (z. B. für Schulungen) ist Text-to-Speech eine hilfreiche Ergänzung zu (Bewegt-)Bildern. Mit Hilfe von trainierbaren Engines ist der erste Schritt zu Text-to-Speech-Materialien sehr einfach und bedeutend kostengünstiger als ein menschlicher Sprecher.

Auf Basis der gesammelten Erfahrung wird Ihre TTS-Engine immer weiter trainiert. Zudem können nach jeder Erweiterung der Engine, alle vorangegangenen Projekte nochmals mit der verbesserten Stimme ausgegeben werden.

Wohin geht die Reise?

Heutzutage werden bereits automatisierte Telefonbots verwendet, um Anrufer an den korrekten menschlichen Gesprächspartner zu vermitteln.

Eine weitere Möglichkeit ist, Ihre eigene Unternehmensstimme (Brand Voice) zu entwickeln. Das Thema Brand Voice bietet eine Menge Potential, da die Anzahl von Videos beispielsweise auf Social-Media-Plattformen wie TikTok, aber auch in Online-Schulungsplattformen stark zunimmt. Auch wir sind gespannt darauf, was für Ihre Kunden die richtige Ansprache ist. Auch in der Film-Industrie gewinnt das Thema Brand Voice für die Synchronisation immer mehr an Bedeutung.

Wie klingt Ihr Unternehmen? – Entwicklung einer Brand Voice

Eine Brand Voice soll aber nicht einfach Buchstaben in Tönen wiedergegeben. Normalerweise transportiert eine Stimme Emotionen und nuancierte kulturelle Informationen. Eine TTS-Engine kann solche Nuancen lernen. Hier geht es dann nicht nur um Pausen oder um die Aussprache eines bestimmten Begriffs. Es geht dabei auch darum eine kulturelle Färbung wie ein „gerolltes R“ oder einen bestimmten Sprechstil in die Stimme aufzunehmen.

Um eine Brand Voice zu entwickeln, können Aufnahmen von jeweils einem professionellen Sprecher verwendet werden, um aus deren Stimme eine generische Stimme zu entwickeln. Damit die generische Stimme aus den Aufnahmen eines echten Sprechers genügend Informationen sammeln kann, benötigen wir mindestens 300 Äußerungen in einem üblichen Audioformat (.wav, .mp3). Je mehr Äußerungen für das Training verwendet werden, desto vollständiger wird das Klangbild der Stimme. Ein zusätzlicher Vorteil ist, dass der digitale Vorleser immer wieder aktualisiert werden kann nach einem weiteren Training der TTS-Engine.

Außerdem ist denkbar, dass Sie Ihre Brand Voice als ständigen Dienst in Echtzeit einbinden, z. B. um sich einen Text in Word oder auf einer Webseite vorlesen zu lassen.

itl kann im iDES (hier geht's zur iDES-Website) aktuell 70 internationale Sprachen (inklusive regionale Varianten, z. B. verschiedene südamerikanische Varianten des Spanischen) für Text-to-Speech anbieten und begleitet Sie gerne bei der Entwicklung eines digitalen Vorlesers mit Ihrer Brand Voice.

Teilen Sie uns Ihr Interesse mit!

Wenn wir Ihr Interesse geweckt haben, dann schauen Sie doch in unseren kurzen Fragebogen. Wir freuen uns über Ihr Feedback!

Möchten Sie mehr über die Hintergründe von Brand Voice erfahren?

Einfach kommentieren oder schreiben Sie mich an.

Ihre Kontakte

Bastian Heilemann (Leitung Software-Entwicklung)

David Bodensohn (Business Development Products & Sales)

Svetlana Balogh-Matthies (Leitung Übersetzung bei itl GmbH)

Folgen Sie uns ...

... um laufend über neue Blog-Artikel und Infos informiert zu werden!

oder abonnieren Sie unseren Newsletter.

Kommentar schreiben

Kommentar schreiben

* Diese Felder sind erforderlich

Kommentare

Kommentare

Keine Kommentare