Zum Hauptinhalt springen
Glossar

Latenz

Verzögerung zwischen Sprecherende und Antwort des Assistenten. Unter 700 ms wirkt natürlich, über 1500 ms abgehackt. Setzt sich aus STT, LLM und TTS zusammen.

Latenz im Telefoniekontext ist die Zeit zwischen dem Sprechende des Anrufers und der ersten Silbe der Assistentenantwort. Sie setzt sich additiv zusammen aus STT-Verarbeitung, Sprachmodell-Inferenz, TTS-Synthese und der Audio-Pipeline der Telefonanlage.

Schwellenwerte aus der Praxis: unter 700 ms wirkt das Gespräch natürlich; zwischen 700 und 1500 ms wird die Verzögerung wahrgenommen; über 1500 ms entstehen "Hallo? Sind Sie noch da?"-Effekte. Streaming-STT und Streaming-TTS sind Pflicht — Batch-Verarbeitung scheitert hier prinzipiell.

Optimierung beginnt mit Messung in Produktion: Wo gehen die Millisekunden hin? Modellgrösse, Region des Inferenz-Servers, Codec der Telefonleitung und Caching häufiger Antworten sind die Stellschrauben mit dem grössten Hebel.

Vertiefen in der Dokumentation
Anwendung im Produkt

Nächster Schritt

Sehen Sie BHOMY in einer 15-minütigen Demo am echten Anrufbeispiel.

🍪

Cookies & Datenschutz

Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern.