Zum Hauptinhalt springen
KI-Telefonassistent A–Z

Glossar

Begriffe rund um Voice AI, Telefonie und DSGVO — kompakt erklärt für Entscheider und Technik-Teams.

KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z — KI-Telefonassistent A–Z —

AVV (Auftragsverarbeitungsvertrag)

Vertrag nach Art. 28 DSGVO zwischen Verantwortlichem und Auftragsverarbeiter. Regelt Zweck, Umfang und Schutzmaßnahmen der Datenverarbeitung. Pflicht für jeden SaaS-Einsatz mit personenbezogenen Daten.

Barge-In

Fähigkeit, dass Anrufer dem Assistenten ins Wort fallen können. Gilt als Indikator für natürliche Gespräche; technisch realisiert durch parallele STT mit Voice-Activity-Detection.

CRM-Integration

Schnittstelle zwischen Telefonassistent und Customer-Relationship-System (HubSpot, Salesforce, Pipedrive). Ermöglicht automatisches Anlegen von Kontakten und Aktivitäten nach Anrufen.

Verwandt:Webhook

EU-Datenresidenz

Speicherung und Verarbeitung von Daten ausschließlich in EU-Rechenzentren. Reduziert Drittland-Transfer-Risiken nach Schrems II und ist Voraussetzung für viele DSGVO-konforme Setups.

IVR (Interactive Voice Response)

Klassisches Sprachdialogsystem mit Tastenmenüs ("Drücken Sie 1 für ..."). KI-Telefonassistenten ersetzen IVR durch freie Sprache und Intent-Erkennung.

RAG (Retrieval-Augmented Generation)

Architektur, bei der ein LLM vor der Antwort relevante Dokumente aus einer Wissensbasis abruft. Ermöglicht aktuelle, unternehmensspezifische Antworten ohne Modell-Fine-Tuning.

Voice Cloning

Erzeugung einer synthetischen Stimme aus einer Sprachprobe (oft 30 s–10 min). Erlaubt einheitliche Markenstimme. DSGVO- und einwilligungsrechtliche Prüfung erforderlich.

Webhook

HTTP-Callback, der nach einem Anruf-Event (Anrufende, Termin gebucht) automatisch ein Drittsystem informiert. Wichtigste Integrations-Technik neben Direkt-APIs.

DNC-Liste (Do-Not-Call)

Sperrliste von Telefonnummern, die nicht ausgehend angerufen werden dürfen. In Deutschland faktisch durch Einwilligungspflichten nach UWG abgebildet; in der Schweiz Sterneintrag im Telefonbuch (Art. 3 lit. u UWG/CH).

DSFA / DPIA

Datenschutz-Folgenabschätzung nach Art. 35 DSGVO. Pflicht bei hohem Risiko für Betroffene (z. B. systematische Gesprächsaufzeichnung). Strukturierte Risiko- und Maßnahmenanalyse vor Inbetriebnahme.

E.164

ITU-T-Standard für internationales Rufnummern­format mit „+", Ländercode und max. 15 Ziffern (z. B. +49 89 1234567). Pflichtformat für SIP-Routing und Webhook-Übergaben.

EU AI Act

EU-Verordnung 2024/1689 zur Regulierung von KI-Systemen. Stufenmodell von „minimal" bis „inakzeptabel". KI-Telefonassistenten fallen meist unter „begrenztes Risiko" mit Transparenzpflicht (Hinweis auf KI).

Function Calling / Tool Use

LLM-Fähigkeit, strukturierte Funktions­aufrufe statt Freitext zu erzeugen (z. B. bookAppointment(dienstag, 10:00)). Grundlage zuverlässiger PVS-/CRM-Anbindung im Telefonkontext.

MOS (Mean Opinion Score)

Bewertung der Audio-Qualität auf Skala 1–5, ursprünglich aus menschlicher Bewertung, heute oft via POLQA/PESQ algorithmisch. MOS ≥ 4,0 gilt als Telefon-tauglich.

Rufnummernportierung

Mitnahme einer bestehenden Telefonnummer beim Wechsel des Anbieters. In Deutschland gesetzlich garantiert (§ 59 TKG). Typischer Zeithorizont 5–15 Werktage je nach Vorausanbieter.

Opt-In

Ausdrückliche, vorab erteilte Einwilligung in Anrufe oder Datenverarbeitung. Pflicht für Outbound-Werbeanrufe (§ 7 Abs. 2 UWG). Muss dokumentiert, granular und widerrufbar sein.

Prompt Injection (Voice)

Angriffstechnik, bei der Anrufer versucht, das System-Prompt zu überschreiben („Vergiss deine Anweisungen…"). Voice-spezifische Härtung: Allowlists, Tool-Use-Validierung, kein Werkzeug-Aufruf bei Anomalien.

PSTN (Festnetz)

Public Switched Telephone Network — das klassische Festnetz mit Vermittlungsstellen. KI-Assistenten erreichen es über SIP-Trunks und Gateways. PSTN-Zustellung garantiert E.164-Erreichbarkeit weltweit.

Realtime API

Streaming-Schnittstellen (z. B. OpenAI Realtime, Google Live API), die Audio direkt verarbeiten — ohne Zwischenschritte STT→Text→TTS. Reduziert Latenz auf <500 ms.

SSML (Speech Synthesis Markup Language)

XML-Auszeichnung für TTS: Aussprache, Pausen, Betonung, Telefonnummern­zerlegung. W3C-Standard. Pflicht für saubere Aussprache deutscher Fachbegriffe und englischer Eigennamen.

TKG (Telekommunikationsgesetz)

Deutsches Gesetz zur Regulierung der Telekommunikation. Für KI-Assistenten relevant: § 7 UWG zur Werbung, § 9a TKG zu Verkehrsdaten, § 59 TKG zur Rufnummernportierung.

Verwandt:DSGVOOpt-In

Turn-Taking

Steuerung des Wechsels zwischen Sprechen und Zuhören. Über reines Barge-In hinaus: Erkennung von Sprechpausen, Backchannels („mhm"), Vermeidung von Doppel-Sprechen. Schlüssel zur Gesprächs­natürlichkeit.

UWG (Gesetz gegen unlauteren Wettbewerb)

Deutsches Gesetz, das u. a. Werbe­anrufe regelt. § 7 Abs. 2 UWG verbietet Cold Calls an Privatpersonen ohne ausdrückliche Einwilligung. Bußgeld bis 300.000 € pro Verstoß.

VAD (Voice Activity Detection)

Erkennung, ob im Audio gerade Sprache vorhanden ist oder nur Stille/Hintergrund­geräusche. Voraussetzung für Barge-In, Turn-Taking und effizientes STT (keine Verarbeitung bei Stille).

Voicemail Detection (AMD)

Erkennung, ob der ausgehende Anruf von einem Menschen oder einer Mailbox angenommen wurde. Auch Answering Machine Detection. Latenz und Genauigkeit (typ. 90–97 %) sind das Trade-Off.

Bereit für den nächsten Schritt?

Verbinden Sie diese Begriffe mit konkreten Lösungen für Ihre Branche.

Stand: 03. Mai 2026. Definitionen werden vierteljährlich überprüft. · v2026-05-03