Voice-Activity-Detection (VAD) klassifiziert Audio-Frames in "Sprache" oder "Nicht-Sprache". Sie ist die unsichtbare Grundlage für Barge-In, Turn-Taking und das Stoppen der STT-Erkennung am Satzende. Schlechte VAD ist die häufigste Ursache für robotisches Gesprächsverhalten.
Moderne VAD-Modelle (Silero, WebRTC VAD, neuronale Encoder mit ms-Latenz) liefern pro Frame eine Wahrscheinlichkeit. In der Praxis kombiniert man sie mit Hysterese (kurzes Halten nach Sprachende) und Energie-Gates, um Husten, Türen und Hintergrund-Geräusche zu unterdrücken.
Operative Stellschrauben: Frame-Größe (20–30 ms), Schwellenwert (oft 0.5 als Startpunkt), Min-Sprach-Dauer (~150 ms) und Min-Stille-Dauer vor Endpoint (~400 ms). Werden diese Werte global festgenagelt, leidet immer ein Use-Case. Pro Branche oder pro Geräusch-Profil zu kalibrieren ist Standard.