Zum Hauptinhalt springen
Glossar

WER (Word Error Rate)

Standard-Metrik der STT-Genauigkeit. Anteil falsch erkannter Wörter (Einfügungen + Auslassungen + Vertauschungen) / Gesamtwörter. Deutsche Allgemeinsprache ≈ 5 %, Fachdeutsch (Medizin/Recht) ≈ 8–15 %.

Word Error Rate (WER) ist die Standard-Metrik für die Qualität von Speech-to-Text. Sie misst, welcher Anteil der Wörter in einer Referenz-Transkription durch Einfügungen, Auslassungen oder Substitutionen falsch ist. Eine WER von 5 % heißt: jedes zwanzigste Wort ist fehlerhaft.

Aussagekräftig wird WER erst, wenn sie auf realen Anrufen aus dem eigenen Use-Case gemessen wird — nicht auf sauberem Studio-Material des Anbieters. Akzente, Telefonbandbreite (8 kHz), Hintergrund-Geräusche und Fachvokabular (Medikamente, Produkt-SKUs) treiben die reale WER teils um den Faktor 2–3 nach oben.

Operativ relevanter als die globale WER ist oft die Entitäts-WER: liegt der Patientenname korrekt vor? Stimmt die Telefonnummer? Eine Pipeline mit Slot-Validierung ("ich habe ‚meier‘ verstanden, ist das richtig?") kann auch mit höherer Roh-WER zuverlässig produktive Ergebnisse liefern.

FAQ
Welche WER ist im Telefonie-Kontext gut?
Für Hochdeutsch im Telefon-Kanal sind 8–12 % realistische Werte für moderne Modelle. Unter 5 % ist im Telefonie-Setting selten und meist nur auf trainingsnahen Domänen erreichbar.
Vertiefen in der Dokumentation
Anwendung im Produkt

Nächster Schritt

Sehen Sie BHOMY in einer 15-minütigen Demo am echten Anrufbeispiel.

🍪

Cookies & Datenschutz

Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern.