Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Une chronologie du marché américain des semi-conducteurs en 2025

juin 19, 2025

La Banque d’Angleterre détient des taux d’intérêt à 4,25% au milieu de l’incertitude au Moyen-Orient

juin 19, 2025

Empire de Nvidia: un regard sur ses meilleurs investissements en démarrage

juin 19, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » OpenAI améliore ses modèles de transcription et de génération de voix
Startups

OpenAI améliore ses modèles de transcription et de génération de voix

JohnBy Johnmars 20, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


OpenAI apporte de nouvelles modèles d’IA de transcription et de génération de voix à son API qui, selon la société, améliore ses versions précédentes.

Pour OpenAI, les modèles s’inscrivent dans sa vision plus large «agentique»: la construction de systèmes automatisés qui peuvent accomplir indépendamment des tâches au nom des utilisateurs. La définition de «l’agent» pourrait être en litige, mais le responsable du produit Openai Olivier Godment a décrit une interprétation comme un chatbot qui peut parler avec les clients d’une entreprise.

« Nous allons voir de plus en plus d’agents pop -up dans les prochains mois », a déclaré à TechCrunch lors d’un briefing. «Et donc le thème général est d’aider les clients et les agents de développement utiles, disponibles et précis.»

OpenAI affirme que son nouveau modèle de texte vocale, «GPT-4O-MINI-TTS», offre non seulement une parole plus nuancée et réaliste, mais est également plus «orientable» que ses modèles de synthèse de la parole précédente. Les développeurs peuvent instruire GPT-4O-MININI-TS sur la façon de dire des choses dans un langage naturel pour l’exemple, «Parlez comme un scientifique fou» ou «Utilisez une voix sereine, comme un professeur de pleine conscience».

Voici la «vraie voix», la voix altérée:

Et voici un échantillon d’une voix «professionnelle» féminine:

Jeff Harris, membre du personnel du produit d’OpenAI, a déclaré à TechCrunch que l’objectif était de faire en sorte que les développeurs adaptent à la fois la «expérience» de la voix et le «contexte».

« Dans différents contextes, vous ne voulez pas seulement une voix plate et monotone », a déclaré Harris. « Si vous êtes dans une expérience de support client et que vous voulez que la voix soit une excuse parce que c’est une erreur, vous pouvez réellement que la voix ait cette émotion … Notre grande croyance, ici, est que les développeurs et les utilisateurs veulent vraiment contrôler non seulement ce que sont les choses. »

En ce qui concerne les nouveaux modèles de discours d’Openai, «GPT-4-Transcribe» et «GPT-4-MINI-Transcript», ils remplacent efficacement le modèle de transcription de chuchotements de longue durée de la société. Formé sur des «ensembles de données audio diversifiés et de haute qualité», les nouveaux modèles peuvent mieux capturer des discours accentués et variés, affirme Openai, même en chaotique autour.

Ils aiment également halluciner, a ajouté Harris. Whisper a eu tendance à fabriquer des mots – et même des passages entiers – dans les conversations, l’introduction de ce qui concerne les commentaires raciaux aux traitements médicaux imaginés en transcriptions.

« (T) Les modèles sont bien améliorés par rapport à un chuchotement sur ce front », a déclaré Harris. «S’assurer que les modèles sont exacts sont complètement essentiels pour acquérir une expérience vocale de pain, et précis (dans ce contexte) signifie que les modèles entendent les mots avec précision (et) ne remplissent pas les détails qu’ils n’ont pas entendu.»

Cependant, votre kilométrage peut varier en fonction de la langue transcrite.

Selon les repères internes d’Openai, GPT-4-Transcribe, plus précis des deux modèles de transcription, a un «taux d’erreur de mots» approuvant 30% (sur 120%) pour les langues indica et dravidienes telles que le tamoul, le telugu, le malayalam et le kannada. Cela signifie que trois mots sur 10 du modèle diffèrent d’une transcription humaine dans ces langues.

Résultats de la transcription OpenAI
Les résultats de la transcription OpenAI d’analyse comparative.Crédits d’image: Openai

Dans une pause dans la tradition, Openai DES ne prévoit pas de rendre ses nouveaux modèles de transcription ouvertement disponibles. La société a historiquement publié de nouvelles versions de Whisper pour un usage commercial sous une licence du MIT.

Harris a déclaré que GPT-4O-Transcribe et GPT-4O-MinI-Transcribe sont « beaucoup plus grands que le chuchotement » et donc pas de bons candidats pour une sortie en ouverture.

« (T) Je ne suis pas le genre de modèle que vous pouvez simplement exécuter localement sur votre ordinateur portable, comme un chuchotement », a-t-il poursuivi. «(W) nous voulons nous assurer que si nous sommes en train de réaffirmer les choses en open source, nous le faisons pensivement, et nous avons un modèle vraiment du miel pour ce besoin spécifique. Et nous pensons que cette fin est l’une des plus intéressantes

Mis à jour le 20 mars 2025, 11 h 54 PT pour clarifier la langue autour du taux d’erreur de mot et mettre à jour le tableau des résultats de référence avec une version plus récente.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleBluesky permet aux éditeurs de suivre plus facilement les recyclage
Next Article HEATHROW DERNIER: Aéroport « Foulé en cours d’exécution » – mais les voyageurs préviennent d’être plus confus après une journée de confusion |
John
  • Website

Related Posts

Une chronologie du marché américain des semi-conducteurs en 2025

juin 19, 2025

Empire de Nvidia: un regard sur ses meilleurs investissements en démarrage

juin 19, 2025

Le plomb de la croissance de la forme de Stripe aide la diaspora africaine à investir dans les startups, l’immobilier

juin 19, 2025

Non, Andreessen Horowitz n’a pas posté cette arnaque crypto tweet

juin 18, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Trust + mise à niveau avec des plafonds d’intérêt plus élevés et de nouveaux avantages

juin 19, 2025

FM Sitharaman a déclaré que le marché fintech devrait augmenter de 30% par an.

juin 18, 2025

FinTech et la croissance mondiale en tant que centre national russe organiseront des séances clés à Spief 2025

juin 18, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Une chronologie du marché américain des semi-conducteurs en 2025

juin 19, 2025

La Banque d’Angleterre détient des taux d’intérêt à 4,25% au milieu de l’incertitude au Moyen-Orient

juin 19, 2025

Empire de Nvidia: un regard sur ses meilleurs investissements en démarrage

juin 19, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.