Zum Hauptinhalt springen
Glossar

VAD (Voice Activity Detection)

Erkennung, ob im Audio gerade Sprache vorhanden ist oder nur Stille/Hintergrund­geräusche. Voraussetzung für Barge-In, Turn-Taking und effizientes STT (keine Verarbeitung bei Stille).

Voice-Activity-Detection (VAD) klassifiziert Audio-Frames in "Sprache" oder "Nicht-Sprache". Sie ist die unsichtbare Grundlage für Barge-In, Turn-Taking und das Stoppen der STT-Erkennung am Satzende. Schlechte VAD ist die häufigste Ursache für robotisches Gesprächsverhalten.

Moderne VAD-Modelle (Silero, WebRTC VAD, neuronale Encoder mit ms-Latenz) liefern pro Frame eine Wahrscheinlichkeit. In der Praxis kombiniert man sie mit Hysterese (kurzes Halten nach Sprachende) und Energie-Gates, um Husten, Türen und Hintergrund-Geräusche zu unterdrücken.

Operative Stellschrauben: Frame-Größe (20–30 ms), Schwellenwert (oft 0.5 als Startpunkt), Min-Sprach-Dauer (~150 ms) und Min-Stille-Dauer vor Endpoint (~400 ms). Werden diese Werte global festgenagelt, leidet immer ein Use-Case. Pro Branche oder pro Geräusch-Profil zu kalibrieren ist Standard.

Vertiefen in der Dokumentation
Anwendung im Produkt

Nächster Schritt

Sehen Sie BHOMY in einer 15-minütigen Demo am echten Anrufbeispiel.

🍪

Cookies & Datenschutz

Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern.