Word Error Rate (WER) ist die Standard-Metrik für die Qualität von Speech-to-Text. Sie misst, welcher Anteil der Wörter in einer Referenz-Transkription durch Einfügungen, Auslassungen oder Substitutionen falsch ist. Eine WER von 5 % heißt: jedes zwanzigste Wort ist fehlerhaft.
Aussagekräftig wird WER erst, wenn sie auf realen Anrufen aus dem eigenen Use-Case gemessen wird — nicht auf sauberem Studio-Material des Anbieters. Akzente, Telefonbandbreite (8 kHz), Hintergrund-Geräusche und Fachvokabular (Medikamente, Produkt-SKUs) treiben die reale WER teils um den Faktor 2–3 nach oben.
Operativ relevanter als die globale WER ist oft die Entitäts-WER: liegt der Patientenname korrekt vor? Stimmt die Telefonnummer? Eine Pipeline mit Slot-Validierung ("ich habe ‚meier‘ verstanden, ist das richtig?") kann auch mit höherer Roh-WER zuverlässig produktive Ergebnisse liefern.