Das Kölner KI-Unternehmen DeepL nimmt die nächste Hürde: Mit DeepL Voice-to-Voice ist ab sofort eine komplette Produktreihe für gesprochene Echtzeit-Übersetzung verfügbar. Statt nur Texte zu übertragen, übersetzt die Plattform künftig ganze Gespräche – live, in über 40 Sprachen und direkt in Tools wie Microsoft Teams oder Zoom. Der große Versprechen: Dolmetscher und Sprachbarrieren in internationalen Meetings sollen überflüssig werden.
Was DeepL Voice-to-Voice eigentlich macht
Die Idee ist so simpel wie reizvoll: Jeder Teilnehmer spricht in seiner Muttersprache, die Gegenseite hört das Gesagte nahezu verzögerungsfrei in der eigenen Sprache. Laut CEO und Gründer Jarek Kutylowski kombiniert DeepL dafür seine eigenen Sprachmodelle mit der hauseigenen Übersetzungs-KI. Technisch läuft die Übersetzung aktuell in drei Stufen ab: Sprache wird zunächst zu Text transkribiert, dann übersetzt und anschließend wieder als Audio ausgegeben. Langfristig will DeepL ein echtes End-to-End-Modell bauen, das diesen Text-Umweg überspringt.
DeepL hat das Paket direkt auf Business-Einsatz zugeschnitten: Kundendaten werden nach eigenen Angaben nicht zum Training der Modelle verwendet, und Transkripte sowie Übersetzungen werden nach dem Gespräch nicht dauerhaft gespeichert – ein wichtiges Argument für regulierte Branchen und den EU-Markt.
Die fünf Bausteine im Überblick
Die neue Voice-to-Voice-Suite besteht aus mehreren Komponenten, die jeweils unterschiedliche Einsatzszenarien abdecken. Hier ein Überblick, wann welche Funktion startet:
| Funktion | Einsatzgebiet | Verfügbarkeit |
|---|---|---|
| Voice for Meetings | Echtzeit-Übersetzung in Microsoft Teams & Zoom | Early Access ab Juni 2026 |
| Voice for Conversations | Mobile & Web, plattformübergreifend | Allgemein verfügbar |
| Gruppenkonversationen | Trainings, Workshops, QR-Code-Beitritt | Ab 30. April 2026 |
| Voice-to-Voice-API | Integration in eigene Anwendungen | Early Access läuft |
| Spoken Terms (Glossar) | Branchen- und Produktbegriffe präzise | Ab 7. Mai 2026 |
Besonders spannend ist die API: Unternehmen können die DeepL-Übersetzung damit direkt in eigene Tools einbauen – etwa Callcenter-Lösungen oder kundenorientierte Anwendungen. Mit der Spoken Terms-Funktion lassen sich zudem Eigennamen, Produktnamen oder branchenspezifische Fachbegriffe zuverlässig erkennen und bei Bedarf unübersetzt lassen. Bestehende DeepL-Glossare werden dafür automatisch integriert.
Über 40 Sprachen und eine ehrliche Schwäche
Zum Start sind bereits alle 24 offiziellen EU-Sprachen an Bord, dazu Arabisch, Bengalisch, Hebräisch, Norwegisch, Tagalog, Thailändisch und Vietnamesisch. Insgesamt deckt DeepL Voice damit mehr als 40 Sprachen ab – deutlich mehr als viele Konkurrenzangebote nativer Meeting-Plattformen.
In einer von DeepL beauftragten Blindstudie des Branchendienstes Slator bevorzugten 96 Prozent der professionellen Übersetzer DeepL Voice gegenüber den nativen Übersetzungslösungen von Google Meet, Microsoft Teams und Zoom. Die Quelle dieser Zahlen sollte man angesichts des Auftraggebers zwar mit etwas Vorsicht einordnen, die Richtung ist aber klar.
Eine echte Schwäche räumt DeepL allerdings selbst ein: Bei einer Live-Demo in Seoul zeigte sich eine spürbare Verzögerung von ein bis zwei Sätzen zwischen Sprecher und Übersetzung. Unterschiedliche Satzstrukturen – etwa die im Deutschen typische Verb-Endstellung – machen echte Latenzfreiheit derzeit unmöglich. Auch die synthetische Stimme ist aktuell noch Standard; eine Funktion zur Stimmerhaltung soll bis Ende 2026 folgen.
Konkurrenzdruck im KI-Dolmetscher-Markt
DeepL betritt mit Voice-to-Voice ein Feld, das zunehmend voller wird. Sanas modifiziert Akzente in Echtzeit und zielt vor allem auf Callcenter, das in Dubai ansässige Camb.AI konzentriert sich auf Medien-Dubbing, und Palabra – finanziert unter anderem von Reddit-Mitgründer Alexis Ohanian – arbeitet daran, die Originalstimme während der Übersetzung zu erhalten. Dazu kommen die großen Plattformen selbst: Google, Microsoft und Zoom bauen ihre eigenen Übersetzungs-Features weiter aus. DeepL positioniert sich dazwischen – als Spezialist mit hoher Übersetzungsqualität, der gleichzeitig Partner und Herausforderer dieser Plattformen ist.
Parallel zur Voice-Einführung krempelt DeepL übrigens auch sein Kernprodukt um. Aus dem klassischen Übersetzungsdienst, der schon seit Jahren ganze Dokumente übersetzt, soll eine durchgängige Übersetzungsinfrastruktur für Unternehmen werden – mit automatischer Qualitätsbewertung, direktem Editieren im Tool und kontinuierlichem Lernen aus Nutzerkorrekturen.
Self-Service statt Enterprise-Hürden
Anders als viele Enterprise-Tools versteckt sich DeepL Voice nicht hinter langen Vertriebsprozessen. Kleinere Teams können die Lösung direkt online buchen, einen kostenlosen Testzeitraum nutzen und dann bei Bedarf skalieren. Wer die neue Voice-Technologie etwa in einem Microsoft-Teams-Meeting oder einer Zoom-Konferenz einsetzen will, muss also nicht erst auf einen Enterprise-Rollout warten.
Fazit: Ein mutiger Schritt mit Luft nach oben
DeepL Voice-to-Voice ist der logische, aber technisch anspruchsvolle nächste Schritt für das Kölner KI-Unternehmen. Die Integration in Teams, Zoom und mobile Geräte, die breite Sprachabdeckung und die saubere Datenschutz-Strategie machen das Paket für europäische Unternehmen besonders interessant. Gleichzeitig bleibt die Latenz von ein bis zwei Sätzen in Live-Gesprächen ein reales Problem – und die fehlende Stimmerhaltung wirkt im Vergleich zu Palabra noch etwas altbacken. Wer international arbeitet und regelmäßig mit sprachlich gemischten Teams telefoniert, sollte das Early-Access-Programm für DeepL Voice for Meetings trotzdem im Auge behalten. Der Start im Juni dürfte zeigen, ob DeepL seinen Ruf als Qualitätsführer auch auf das gesprochene Wort übertragen kann.