Latenz im Telefoniekontext ist die Zeit zwischen dem Sprechende des Anrufers und der ersten Silbe der Assistentenantwort. Sie setzt sich additiv zusammen aus STT-Verarbeitung, Sprachmodell-Inferenz, TTS-Synthese und der Audio-Pipeline der Telefonanlage.
Schwellenwerte aus der Praxis: unter 700 ms wirkt das Gespräch natürlich; zwischen 700 und 1500 ms wird die Verzögerung wahrgenommen; über 1500 ms entstehen "Hallo? Sind Sie noch da?"-Effekte. Streaming-STT und Streaming-TTS sind Pflicht — Batch-Verarbeitung scheitert hier prinzipiell.
Optimierung beginnt mit Messung in Produktion: Wo gehen die Millisekunden hin? Modellgrösse, Region des Inferenz-Servers, Codec der Telefonleitung und Caching häufiger Antworten sind die Stellschrauben mit dem grössten Hebel.