Speech-to-Text (STT), auch Automatic Speech Recognition (ASR) genannt, wandelt gesprochene Sprache in Text um. Im KI-Telefonassistenten ist STT der erste Schritt der Pipeline und entscheidet maßgeblich über die Qualität aller folgenden Schritte: ein falsch verstandenes Wort kontaminiert den Intent.
Streaming-STT ist Pflicht — das System muss bereits während des Sprechens Hypothesen liefern, sonst entstehen kaskadierende Latenzen. Spezialisierte Modelle für die Zielsprache (z. B. Whisper-Variante mit deutschem Fine-Tuning, Deepgram, Azure) liefern in der Regel deutlich bessere Ergebnisse als generische multilinguale Modelle.
In Produktion zählen drei Größen: Word-Error-Rate (WER) im realistischen Telefonie-Audio (8 kHz, Hintergrundgeräusche), Robustheit gegen Dialekte und Eigennamen, sowie Latenz bis zur ersten Hypothese. Eine WER über 12 % im Telefonkontext ist nicht produktionsreif.