DeepL, une société de traduction surtout connue pour ses outils de texte, a publié aujourd’hui une suite de traduction voix-voix qui couvre des cas d’utilisation tels que les réunions, les conversations mobiles et Web, ainsi que les conversations de groupe pour les travailleurs de première ligne via des applications personnalisées. La société publie également une API qui permet aux développeurs et aux entreprises externes de s’appuyer sur la technologie DeepL pour des cas d’utilisation personnalisés, tels que les centres d’appels.
« Après avoir passé tant d’années dans la traduction de texte, la voix était une étape naturelle pour nous », a déclaré Jarek Kutylowski, PDG de DeepL, à TechCrunch dans une interview. « Nous avons parcouru un long chemin en matière de traduction de textes et de documents. Mais nous pensions qu’il n’existait pas de produit idéal pour la traduction vocale en temps réel. »
Kutylowski a déclaré que les défis liés à la création d’un produit de traduction en temps réel consistent à trouver un équilibre entre la réduction de la latence (le délai entre quelqu’un qui parle et la lecture de l’audio traduit) et le maintien de résultats précis.
DeepL publie des modules complémentaires pour des plates-formes telles que Zoom et Microsoft Teams, où les auditeurs peuvent soit entendre la traduction en temps réel pendant que d’autres parlent dans leur langue maternelle, soit suivre le texte traduit en temps réel à l’écran. Ce programme est actuellement en accès anticipé et la société invite les organisations à s’inscrire sur une liste d’attente. La société propose également un produit pour les conversations mobiles et sur le Web qui peuvent avoir lieu en personne ou à distance.
DeepL permet également aux utilisateurs de participer à une conversation de groupe dans des contextes tels que des sessions de formation ou des ateliers, permettant aux participants de se joindre via un code QR.
DeepL a déclaré que sa technologie voix-voix peut également apprendre et s’adapter à un vocabulaire personnalisé, tel que des termes spécifiques à un secteur et des noms d’entreprise et de personnes.
Kutylowski a déclaré que l’IA réinvente ce à quoi ressemblera le service client dans les années à venir. Il a noté qu’une couche de traduction aide les entreprises à fournir une assistance dans des langues où le personnel qualifié est rare et coûteux à embaucher.
Événement Techcrunch
San Francisco, Californie
|
13-15 octobre 2026
La société a déclaré qu’elle contrôlait l’ensemble de la pile voix-voix. Cependant, le système actuel convertit la parole en texte, applique la traduction, puis la reconvertit en parole. DeepL estime que depuis des années qu’il travaille sur la traduction de texte, il dispose d’un avantage en matière de qualité de traduction. À l’avenir, l’entreprise souhaite développer un modèle de traduction vocale de bout en bout qui ignore entièrement l’étape du texte.
DeepL fait face à la concurrence de plusieurs startups bien financées travaillant dans des coins adjacents de l’espace. Sanas, qui a levé l’année dernière 65 millions de dollars auprès de Quadrille Capital et Teleperformance, utilise l’IA pour modifier l’accent d’un locuteur en temps réel – un outil destiné principalement aux agents des centres d’appels.
Camb.AI, basée à Dubaï, se concentre sur la synthèse vocale et la traduction pour les sociétés de médias et de divertissement Amazon Web Services, les aidant à doubler et localiser le contenu vidéo à grande échelle.
Palabra, soutenu par la société Seven Seven Six, co-fondateur de Reddit, Alexis Ohanian, construit un moteur de traduction vocale en temps réel conçu pour préserver à la fois le sens et la voix originale de l’orateur, le mettant ainsi en concurrence plus directe avec ce que DeepL est en train de construire.

