Barge-In bezeichnet die Fähigkeit eines KI-Telefonassistenten, dass Anrufer ihn jederzeit unterbrechen können — so wie in einem natürlichen Gespräch. Ohne Barge-In wirken Telefonate roboterhaft, weil Nutzende abwarten müssen, bis das System ausgesprochen hat.
Technisch wird Barge-In durch parallele Speech-to-Text-Erkennung mit Voice-Activity-Detection (VAD) realisiert: Sobald das System Spracheingang detektiert, wird die laufende TTS-Wiedergabe unterbrochen und in den Zuhör-Modus gewechselt. Schwellenwerte und Hysterese sind kritisch, sonst springen Geräusche das Gespräch an.
In der Praxis verbessert Barge-In die wahrgenommene Latenz und die Abschlussraten. Wichtige Edge-Cases: laute Hintergrundgeräusche, Hold-Music auf Anruferseite und sehr kurze Bestätigungen ("ja", "okay") sollten richtig kategorisiert werden, sonst entsteht ein Ping-Pong-Effekt.