Turn-Taking beschreibt, wie ein Voice-AI-System entscheidet, wann es spricht und wann es zuhört. Schlechtes Turn-Taking erzeugt das Gefühl von "Funkgerät-Telefonie" — entweder unterbricht das System ständig oder es wartet quälend lange, bis es antwortet.
Gute Turn-Taking-Heuristiken kombinieren Voice-Activity-Detection (VAD), prosodische Endsignale ("…in Ordnung."), Pausen-Länge und semantische Endpunkt-Vorhersage des LLMs. Übliche Zielzeiten: 250–500 ms Reaktionsfenster nach Anrufer-Pause, mit dynamischer Verlängerung bei erkennbaren Denkpausen.
Im produktiven Einsatz zahlen sich kontextabhängige Profile aus: Outbound-Sales darf etwas schneller reagieren, Support für ältere Anrufer eher langsamer. Messbare KPIs sind Anteil unterbrochener Anrufer-Sätze, mittlere Antwortlatenz und Abbruchrate nach Latenz-Spikes.