Zum Hauptinhalt springen
Glossar

TTS (Text-to-Speech)

Wandelt Text in gesprochene Sprache um. Aktuelle neuronale TTS-Systeme klingen nahezu menschlich. Variiert in Latenz, Sprachenauswahl und Stimm-Klonungs-Fähigkeit.

Text-to-Speech (TTS) wandelt vom Sprachmodell erzeugten Text in gesprochene Sprache zurück. Aktuelle neuronale TTS-Engines (ElevenLabs, OpenAI, Microsoft Neural, Google Wavenet) klingen für die meisten Anrufer ununterscheidbar von einer menschlichen Stimme.

Für Telefoniequalität entscheiden vier Faktoren: niedrige First-Byte-Latenz (Streaming-TTS), saubere Aussprache von Eigennamen und Zahlen (Datums- und Telefonnummern-Heuristik), Sprachvielfalt in der Zielsprache und Stabilität bei langen Antworten ohne Pausen-Glitches.

Markenstimmen werden über Voice-Cloning erzeugt: aus 30 Sekunden bis 10 Minuten Sprachprobe entsteht ein synthetisches Voice-Profil. Beim Einsatz ist eine DSGVO-Prüfung sowie eine ausdrückliche Einwilligung der Person, deren Stimme geklont wird, Pflicht.

Anwendung im Produkt

Nächster Schritt

Sehen Sie BHOMY in einer 15-minütigen Demo am echten Anrufbeispiel.

🍪

Cookies & Datenschutz

Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern.