Realtime-API bezeichnet einen Server-zu-Server-Stream, über den Sprach-Eingang in Echtzeit an ein Sprachmodell gestreamt und Audio-Ausgang direkt zurückgespielt wird — typischerweise per WebSocket, WebRTC oder gRPC bidirektional. Im Vergleich zum klassischen STT → LLM → TTS-Pipeline-Ansatz schneidet eine Realtime-API mehrere hundert Millisekunden Latenz ab.
Architektonisch ändert das den Gesprächsstil: kürzere Pausen, natürlicheres Turn-Taking, deutlich besseres Barge-In. Voraussetzung ist eine medienseitige Anbindung zur Telefonie (SIP-Trunk → RTP-Bridge → Realtime-API) und ein Tool-Layer, der Function-Calls genauso latenzarm ausführt wie die Audio-Pipeline selbst.
Operative Risiken: höhere Kosten pro Minute, abrupte Modell-Updates auf Anbieterseite und schwierigere Debugging-Pfade (kein klar getrennter Transkript-Schritt). Belastbare Setups zeichnen Audio, ein Transkript-Snapshot und Tool-Aufrufe parallel auf, damit Vorfälle reproduzierbar bleiben.