Voice Cloning bezeichnet die Synthese einer Stimme aus einer Sprachprobe. Moderne Modelle (ElevenLabs, Resemble, OpenAI) brauchen 30 Sekunden bis 10 Minuten sauberes Audio, um ein synthetisches Voice-Profil zu erzeugen, das die Charakteristika der Originalstimme beibehält.
Im Unternehmenskontext erlaubt das eine konsistente Markenstimme über alle Telefonate hinweg — unabhängig vom TTS-Anbieter und ohne sich auf Standard-Stimmen verlassen zu müssen. Auch mehrsprachige Voice-Profile aus einer einzigen Aufnahme sind heute möglich.
Rechtlich ist Voice Cloning sensitiv: Die Stimme einer natürlichen Person ist personenbezogenes biometrisches Datum (DSGVO, Art. 9). Pflicht sind dokumentierte Einwilligung, Zweckbindung, Speicherbegrenzung und ein Verfahren für Widerruf. Ohne dieses Rahmenwerk ist der Einsatz hochriskant.