OpenAI apporte de nouvelles modèles d’IA de transcription et de génération de voix à son API qui, selon la société, améliore ses versions précédentes.
Pour OpenAI, les modèles s’inscrivent dans sa vision plus large «agentique»: la construction de systèmes automatisés qui peuvent accomplir indépendamment des tâches au nom des utilisateurs. La définition de «l’agent» pourrait être en litige, mais le responsable du produit Openai Olivier Godment a décrit une interprétation comme un chatbot qui peut parler avec les clients d’une entreprise.
« Nous allons voir de plus en plus d’agents pop -up dans les prochains mois », a déclaré à TechCrunch lors d’un briefing. «Et donc le thème général est d’aider les clients et les agents de développement utiles, disponibles et précis.»
OpenAI affirme que son nouveau modèle de texte vocale, «GPT-4O-MINI-TTS», offre non seulement une parole plus nuancée et réaliste, mais est également plus «orientable» que ses modèles de synthèse de la parole précédente. Les développeurs peuvent instruire GPT-4O-MININI-TS sur la façon de dire des choses dans un langage naturel pour l’exemple, «Parlez comme un scientifique fou» ou «Utilisez une voix sereine, comme un professeur de pleine conscience».
Voici la «vraie voix», la voix altérée:
Et voici un échantillon d’une voix «professionnelle» féminine:
Jeff Harris, membre du personnel du produit d’OpenAI, a déclaré à TechCrunch que l’objectif était de faire en sorte que les développeurs adaptent à la fois la «expérience» de la voix et le «contexte».
« Dans différents contextes, vous ne voulez pas seulement une voix plate et monotone », a déclaré Harris. « Si vous êtes dans une expérience de support client et que vous voulez que la voix soit une excuse parce que c’est une erreur, vous pouvez réellement que la voix ait cette émotion … Notre grande croyance, ici, est que les développeurs et les utilisateurs veulent vraiment contrôler non seulement ce que sont les choses. »
En ce qui concerne les nouveaux modèles de discours d’Openai, «GPT-4-Transcribe» et «GPT-4-MINI-Transcript», ils remplacent efficacement le modèle de transcription de chuchotements de longue durée de la société. Formé sur des «ensembles de données audio diversifiés et de haute qualité», les nouveaux modèles peuvent mieux capturer des discours accentués et variés, affirme Openai, même en chaotique autour.
Ils aiment également halluciner, a ajouté Harris. Whisper a eu tendance à fabriquer des mots – et même des passages entiers – dans les conversations, l’introduction de ce qui concerne les commentaires raciaux aux traitements médicaux imaginés en transcriptions.
« (T) Les modèles sont bien améliorés par rapport à un chuchotement sur ce front », a déclaré Harris. «S’assurer que les modèles sont exacts sont complètement essentiels pour acquérir une expérience vocale de pain, et précis (dans ce contexte) signifie que les modèles entendent les mots avec précision (et) ne remplissent pas les détails qu’ils n’ont pas entendu.»
Cependant, votre kilométrage peut varier en fonction de la langue transcrite.
Selon les repères internes d’Openai, GPT-4-Transcribe, plus précis des deux modèles de transcription, a un «taux d’erreur de mots» approuvant 30% (sur 120%) pour les langues indica et dravidienes telles que le tamoul, le telugu, le malayalam et le kannada. Cela signifie que trois mots sur 10 du modèle diffèrent d’une transcription humaine dans ces langues.

Dans une pause dans la tradition, Openai DES ne prévoit pas de rendre ses nouveaux modèles de transcription ouvertement disponibles. La société a historiquement publié de nouvelles versions de Whisper pour un usage commercial sous une licence du MIT.
Harris a déclaré que GPT-4O-Transcribe et GPT-4O-MinI-Transcribe sont « beaucoup plus grands que le chuchotement » et donc pas de bons candidats pour une sortie en ouverture.
« (T) Je ne suis pas le genre de modèle que vous pouvez simplement exécuter localement sur votre ordinateur portable, comme un chuchotement », a-t-il poursuivi. «(W) nous voulons nous assurer que si nous sommes en train de réaffirmer les choses en open source, nous le faisons pensivement, et nous avons un modèle vraiment du miel pour ce besoin spécifique. Et nous pensons que cette fin est l’une des plus intéressantes
Mis à jour le 20 mars 2025, 11 h 54 PT pour clarifier la langue autour du taux d’erreur de mot et mettre à jour le tableau des résultats de référence avec une version plus récente.