Zum Hauptinhalt springen
Glossar

SSML (Speech Synthesis Markup Language)

XML-Auszeichnung für TTS: Aussprache, Pausen, Betonung, Telefonnummern­zerlegung. W3C-Standard. Pflicht für saubere Aussprache deutscher Fachbegriffe und englischer Eigennamen.

SSML (Speech Synthesis Markup Language) ist ein XML-Vokabular, mit dem sich Text-to-Speech-Ausgaben gezielt steuern lassen: Pausen, Betonungen, Sprechtempo, Tonhöhe, Aussprache einzelner Wörter, Buchstabieren von Telefonnummern oder IBANs. Für einen KI-Telefonassistenten ist SSML der Hebel, mit dem aus brauchbarer TTS eine seriös klingende Stimme wird.

Praktisch wichtige Tags: `<break time="350ms"/>` für Atempausen vor wichtigen Sätzen, `<say-as interpret-as="telephone">` für Nummern, `<phoneme>` für Eigennamen und Fachbegriffe, `<prosody rate="95%">` für ein leicht verlangsamtes Tempo bei sensiblen Themen. Eine bibliotheksartige Sammlung pro Branche zahlt sich aus.

Achtung: zu viele Tags machen Sprachausgabe künstlich und brechen ältere TTS-Engines. Saubere SSML-Praxis bedeutet sparsamer Einsatz, automatisiertes Escaping vom LLM erzeugter Texte und Linting der ausgehenden Markup-Strings vor dem Senden an die TTS-API.

FAQ
Soll das LLM SSML direkt erzeugen?
In der Regel nein. Besser: das LLM liefert sauberen Klartext plus Metadaten ("dies ist eine Telefonnummer"), und eine deterministische Renderer-Schicht baut daraus SSML. So bleiben Tags konsistent und valide.
Verwandte Begriffe
Vertiefen in der Dokumentation
Anwendung im Produkt

Nächster Schritt

Sehen Sie BHOMY in einer 15-minütigen Demo am echten Anrufbeispiel.

🍪

Cookies & Datenschutz

Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern.