OpenAI a déclaré jeudi que son API inclurait désormais un certain nombre de nouvelles fonctionnalités d’intelligence vocale conçues pour aider les développeurs à créer des applications capables de parler, de transcrire et de traduire les conversations avec les utilisateurs.
Le nouveau GPT‑Realtime‑2 de la société est un autre modèle vocal, conçu pour créer une simulation vocale réaliste pouvant converser avec les utilisateurs. Cependant, contrairement à son prédécesseur (GPT-Realtime-1.5), celui-ci est construit avec un raisonnement de classe GPT-5 qui, selon OpenAI, a été créé pour traiter les demandes plus complexes des utilisateurs.
La société lance également GPT‑Realtime‑Translate, qui, comme son nom l’indique, est conçu pour fournir des services de traduction en temps réel qui « suivent le rythme » de l’utilisateur, de manière conversationnelle. La fonctionnalité comprend plus de 70 langues d’entrée (c’est-à-dire les langues qu’elle peut comprendre) et 13 langues de sortie (les langues qu’elle transmet au locuteur).
Enfin, la société a également lancé une nouvelle fonctionnalité de transcription, GPT-Realtime-Whisper, qui offre aux utilisateurs des fonctionnalités de synthèse vocale en direct qui sont capturées au fur et à mesure des interactions.
« Ensemble, les modèles que nous lançons font passer l’audio en temps réel d’un simple appel et réponse à des interfaces vocales qui peuvent réellement fonctionner : écouter, raisonner, traduire, transcrire et agir au fur et à mesure qu’une conversation se déroule », a déclaré la société.
À qui ces mises à jour seront-elles utiles ? Les entreprises qui souhaitent étendre leurs capacités de service client constituent une cible évidente. Cependant, OpenAI note également que ses nouvelles fonctionnalités seront utiles dans un large éventail de domaines, notamment l’éducation, les médias, les événements et les plateformes de créateurs, entre autres.
Aussi utiles que ces outils semblent du point de vue de l’entreprise, il semble également plausible qu’ils puissent être utilisés à mauvais escient. La société a déclaré avoir mis en place des garde-fous pour empêcher que ses nouvelles fonctionnalités ne soient utilisées de manière abusive pour créer du spam, de la fraude ou d’autres formes d’abus en ligne. Certains déclencheurs ont été intégrés au système afin que « les conversations puissent être interrompues si elles sont détectées comme violant nos directives sur les contenus préjudiciables », a déclaré OpenAI.
Événement Techcrunch
San Francisco, Californie
|
13-15 octobre 2026
Tous les nouveaux modèles vocaux sont inclus dans l’API Realtime d’OpenAI. Translate et Whisper sont facturés à la minute, tandis que GPT-Realtime-2 est facturé à la consommation de jetons.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

