Text-to-Speech (TTS) wandelt vom Sprachmodell erzeugten Text in gesprochene Sprache zurück. Aktuelle neuronale TTS-Engines (ElevenLabs, OpenAI, Microsoft Neural, Google Wavenet) klingen für die meisten Anrufer ununterscheidbar von einer menschlichen Stimme.
Für Telefoniequalität entscheiden vier Faktoren: niedrige First-Byte-Latenz (Streaming-TTS), saubere Aussprache von Eigennamen und Zahlen (Datums- und Telefonnummern-Heuristik), Sprachvielfalt in der Zielsprache und Stabilität bei langen Antworten ohne Pausen-Glitches.
Markenstimmen werden über Voice-Cloning erzeugt: aus 30 Sekunden bis 10 Minuten Sprachprobe entsteht ein synthetisches Voice-Profil. Beim Einsatz ist eine DSGVO-Prüfung sowie eine ausdrückliche Einwilligung der Person, deren Stimme geklont wird, Pflicht.