AVV (Auftragsverarbeitungsvertrag)
Vertrag nach Art. 28 DSGVO zwischen Verantwortlichem und Auftragsverarbeiter. Regelt Zweck, Umfang und Schutzmaßnahmen der Datenverarbeitung. Pflicht für jeden SaaS-Einsatz mit personenbezogenen Daten.
Vertrag nach Art. 28 DSGVO zwischen Verantwortlichem und Auftragsverarbeiter. Regelt Zweck, Umfang und Schutzmaßnahmen der Datenverarbeitung. Pflicht für jeden SaaS-Einsatz mit personenbezogenen Daten.
Fähigkeit, dass Anrufer dem Assistenten ins Wort fallen können. Gilt als Indikator für natürliche Gespräche; technisch realisiert durch parallele STT mit Voice-Activity-Detection.
Anzahl der parallel führbaren Telefonate. Bestimmt die Skalierung bei Lastspitzen — wichtig bei Marketing-Kampagnen oder Notdiensten. Limit ist meist tarifabhängig.
Schnittstelle zwischen Telefonassistent und Customer-Relationship-System (HubSpot, Salesforce, Pipedrive). Ermöglicht automatisches Anlegen von Kontakten und Aktivitäten nach Anrufen.
EU-Datenschutz-Grundverordnung. Regelt die Verarbeitung personenbezogener Daten in der EU. Verlangt u. a. Rechtsgrundlage, Zweckbindung, AVV bei Auftragsverarbeitung und EU-Server bei sensiblen Daten.
Speicherung und Verarbeitung von Daten ausschließlich in EU-Rechenzentren. Reduziert Drittland-Transfer-Risiken nach Schrems II und ist Voraussetzung für viele DSGVO-konforme Setups.
Inbound = der Assistent nimmt eingehende Anrufe entgegen (Terminbuchung, Support). Outbound = der Assistent ruft aktiv heraus (Bestätigungen, Umfragen). Beide Modi haben unterschiedliche Compliance-Anforderungen.
Klassisches Sprachdialogsystem mit Tastenmenüs ("Drücken Sie 1 für ..."). KI-Telefonassistenten ersetzen IVR durch freie Sprache und Intent-Erkennung.
Software, die eingehende und ausgehende Anrufe autonom führt — auf Basis von Sprache-zu-Text, einem Sprachmodell zur Antwortfindung und Text-zu-Sprache. Übergibt bei Bedarf an Menschen.
Verzögerung zwischen Sprecherende und Antwort des Assistenten. Unter 700 ms wirkt natürlich, über 1500 ms abgehackt. Setzt sich aus STT, LLM und TTS zusammen.
Großes Sprachmodell (z. B. GPT-4, Claude, Llama) zur Generierung von Antworten. Im Telefonkontext kombiniert mit RAG, um auf unternehmensspezifisches Wissen zuzugreifen.
Komponente, die Anrufer-Sätze in strukturierte Intents und Entities übersetzt ("Termin am Dienstag um 10" → intent=book, slot=dienstag-10). Heute meist von LLMs übernommen.
Architektur, bei der ein LLM vor der Antwort relevante Dokumente aus einer Wissensbasis abruft. Ermöglicht aktuelle, unternehmensspezifische Antworten ohne Modell-Fine-Tuning.
Internet-basierte Telefonleitung, die Rufnummern an den KI-Assistenten weiterleitet. Standard-Protokoll für VoIP. Häufig portiert von bestehenden Anbietern (Telekom, Sipgate, Vodafone).
Vertraglich zugesicherte Dienstgüte: Verfügbarkeit (z. B. 99,9 %), Reaktionszeit, Wiederherstellungszeit. Pflicht für geschäftskritische Setups, oft mit Pönalen bei Verletzung.
Wandelt gesprochene Sprache in Text um. Auch ASR genannt (Automatic Speech Recognition). Qualität entscheidet über Verständnis-Rate; spezialisierte Modelle für Deutsch sind Pflicht.
Wandelt Text in gesprochene Sprache um. Aktuelle neuronale TTS-Systeme klingen nahezu menschlich. Variiert in Latenz, Sprachenauswahl und Stimm-Klonungs-Fähigkeit.
Oberbegriff für KI-Systeme, die Sprache verstehen und sprechen. Umfasst STT, NLU/LLM und TTS. KI-Telefonassistenten sind eine konkrete Anwendung von Voice AI.
Erzeugung einer synthetischen Stimme aus einer Sprachprobe (oft 30 s–10 min). Erlaubt einheitliche Markenstimme. DSGVO- und einwilligungsrechtliche Prüfung erforderlich.
HTTP-Callback, der nach einem Anruf-Event (Anrufende, Termin gebucht) automatisch ein Drittsystem informiert. Wichtigste Integrations-Technik neben Direkt-APIs.
Sperrliste von Telefonnummern, die nicht ausgehend angerufen werden dürfen. In Deutschland faktisch durch Einwilligungspflichten nach UWG abgebildet; in der Schweiz Sterneintrag im Telefonbuch (Art. 3 lit. u UWG/CH).
Datenschutz-Folgenabschätzung nach Art. 35 DSGVO. Pflicht bei hohem Risiko für Betroffene (z. B. systematische Gesprächsaufzeichnung). Strukturierte Risiko- und Maßnahmenanalyse vor Inbetriebnahme.
ITU-T-Standard für internationales Rufnummernformat mit „+", Ländercode und max. 15 Ziffern (z. B. +49 89 1234567). Pflichtformat für SIP-Routing und Webhook-Übergaben.
EU-Verordnung 2024/1689 zur Regulierung von KI-Systemen. Stufenmodell von „minimal" bis „inakzeptabel". KI-Telefonassistenten fallen meist unter „begrenztes Risiko" mit Transparenzpflicht (Hinweis auf KI).
LLM-Fähigkeit, strukturierte Funktionsaufrufe statt Freitext zu erzeugen (z. B. bookAppointment(dienstag, 10:00)). Grundlage zuverlässiger PVS-/CRM-Anbindung im Telefonkontext.
Geregelte Übergabe vom KI-Assistenten an einen Menschen — typisch bei Triage-Signalen, Beschwerden oder explizitem Wunsch des Anrufers. Qualitätsmerkmal jeder Praxisintegration.
Klassifikation der Anrufer-Absicht in vordefinierte Kategorien (Termin, Rezept, Beschwerde, Info). Klassisch via Klassifikator, heute meist via LLM-Few-Shot.
Bewertung der Audio-Qualität auf Skala 1–5, ursprünglich aus menschlicher Bewertung, heute oft via POLQA/PESQ algorithmisch. MOS ≥ 4,0 gilt als Telefon-tauglich.
Mitnahme einer bestehenden Telefonnummer beim Wechsel des Anbieters. In Deutschland gesetzlich garantiert (§ 59 TKG). Typischer Zeithorizont 5–15 Werktage je nach Vorausanbieter.
Ausdrückliche, vorab erteilte Einwilligung in Anrufe oder Datenverarbeitung. Pflicht für Outbound-Werbeanrufe (§ 7 Abs. 2 UWG). Muss dokumentiert, granular und widerrufbar sein.
Angriffstechnik, bei der Anrufer versucht, das System-Prompt zu überschreiben („Vergiss deine Anweisungen…"). Voice-spezifische Härtung: Allowlists, Tool-Use-Validierung, kein Werkzeug-Aufruf bei Anomalien.
Public Switched Telephone Network — das klassische Festnetz mit Vermittlungsstellen. KI-Assistenten erreichen es über SIP-Trunks und Gateways. PSTN-Zustellung garantiert E.164-Erreichbarkeit weltweit.
Streaming-Schnittstellen (z. B. OpenAI Realtime, Google Live API), die Audio direkt verarbeiten — ohne Zwischenschritte STT→Text→TTS. Reduziert Latenz auf <500 ms.
XML-Auszeichnung für TTS: Aussprache, Pausen, Betonung, Telefonnummernzerlegung. W3C-Standard. Pflicht für saubere Aussprache deutscher Fachbegriffe und englischer Eigennamen.
Deutsches Gesetz zur Regulierung der Telekommunikation. Für KI-Assistenten relevant: § 7 UWG zur Werbung, § 9a TKG zu Verkehrsdaten, § 59 TKG zur Rufnummernportierung.
Steuerung des Wechsels zwischen Sprechen und Zuhören. Über reines Barge-In hinaus: Erkennung von Sprechpausen, Backchannels („mhm"), Vermeidung von Doppel-Sprechen. Schlüssel zur Gesprächsnatürlichkeit.
Deutsches Gesetz, das u. a. Werbeanrufe regelt. § 7 Abs. 2 UWG verbietet Cold Calls an Privatpersonen ohne ausdrückliche Einwilligung. Bußgeld bis 300.000 € pro Verstoß.
Erkennung, ob im Audio gerade Sprache vorhanden ist oder nur Stille/Hintergrundgeräusche. Voraussetzung für Barge-In, Turn-Taking und effizientes STT (keine Verarbeitung bei Stille).
Erkennung, ob der ausgehende Anruf von einem Menschen oder einer Mailbox angenommen wurde. Auch Answering Machine Detection. Latenz und Genauigkeit (typ. 90–97 %) sind das Trade-Off.
Standard-Metrik der STT-Genauigkeit. Anteil falsch erkannter Wörter (Einfügungen + Auslassungen + Vertauschungen) / Gesamtwörter. Deutsche Allgemeinsprache ≈ 5 %, Fachdeutsch (Medizin/Recht) ≈ 8–15 %.
Verbinden Sie diese Begriffe mit konkreten Lösungen für Ihre Branche.
Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern. Datenschutzerklärung lesen