SSML (Speech Synthesis Markup Language) ist ein XML-Vokabular, mit dem sich Text-to-Speech-Ausgaben gezielt steuern lassen: Pausen, Betonungen, Sprechtempo, Tonhöhe, Aussprache einzelner Wörter, Buchstabieren von Telefonnummern oder IBANs. Für einen KI-Telefonassistenten ist SSML der Hebel, mit dem aus brauchbarer TTS eine seriös klingende Stimme wird.
Praktisch wichtige Tags: `<break time="350ms"/>` für Atempausen vor wichtigen Sätzen, `<say-as interpret-as="telephone">` für Nummern, `<phoneme>` für Eigennamen und Fachbegriffe, `<prosody rate="95%">` für ein leicht verlangsamtes Tempo bei sensiblen Themen. Eine bibliotheksartige Sammlung pro Branche zahlt sich aus.
Achtung: zu viele Tags machen Sprachausgabe künstlich und brechen ältere TTS-Engines. Saubere SSML-Praxis bedeutet sparsamer Einsatz, automatisiertes Escaping vom LLM erzeugter Texte und Linting der ausgehenden Markup-Strings vor dem Senden an die TTS-API.