Soll das LLM SSML direkt erzeugen?

Name: bhomy
Price: 59 EUR
Availability: InStock
Author: bhomy

In der Regel nein. Besser: das LLM liefert sauberen Klartext plus Metadaten ("dies ist eine Telefonnummer"), und eine deterministische Renderer-Schicht baut daraus SSML. So bleiben Tags konsistent und valide.

SSML (Speech Synthesis Markup Language) — Definition & Praxis | BHOMY Glossar

SSML (Speech Synthesis Markup Language) ist ein XML-Vokabular, mit dem sich Text-to-Speech-Ausgaben gezielt steuern lassen: Pausen, Betonungen, Sprechtempo, Tonhöhe, Aussprache einzelner Wörter, Buchstabieren von Telefonnummern oder IBANs. Für einen KI-Telefonassistenten ist SSML der Hebel, mit dem aus brauchbarer TTS eine seriös klingende Stimme wird.

Praktisch wichtige Tags: `<break time="350ms"/>` für Atempausen vor wichtigen Sätzen, `<say-as interpret-as="telephone">` für Nummern, `<phoneme>` für Eigennamen und Fachbegriffe, `<prosody rate="95%">` für ein leicht verlangsamtes Tempo bei sensiblen Themen. Eine bibliotheksartige Sammlung pro Branche zahlt sich aus.

Achtung: zu viele Tags machen Sprachausgabe künstlich und brechen ältere TTS-Engines. Saubere SSML-Praxis bedeutet sparsamer Einsatz, automatisiertes Escaping vom LLM erzeugter Texte und Linting der ausgehenden Markup-Strings vor dem Senden an die TTS-API.

SSML (Speech Synthesis Markup Language)

Nächster Schritt

Kontakt

Navigation

Lösungen

Branchen

Plattform

Rechtliches

Cookies & Datenschutz