Voice AI ist der Sammelbegriff für KI-Systeme, die gesprochene Sprache verstehen und produzieren können. Der Stack besteht immer aus drei Schichten: Speech-to-Text für die Eingabe, ein Sprachmodell (mit oder ohne RAG) für die Generierung, und Text-to-Speech für die Ausgabe.
KI-Telefonassistenten sind die heute kommerziell wichtigste Anwendung von Voice AI, aber nicht die einzige: Voice-Bots in Apps, In-Car-Assistenten, Smart-Home-Geräte oder Diktier-Systeme nutzen denselben Stack mit anderen Latenz- und Domain-Anforderungen.
Was Voice AI von rein textbasierter Konversations-KI unterscheidet, sind Echtzeit-Anforderungen, akustische Robustheit und natürliche Prosodie. Diese Trio kostet mehr Engineering-Aufwand als reine Chat-Setups — und ist der Grund, warum viele "Voice AI"-Demos in Produktion scheitern.