Microsoft AI, le laboratoire de recherche du géant de la technologie, a annoncé jeudi la sortie de trois modèles d’IA fondamentaux capables de générer du texte, de la voix et des images.
Cette publication témoigne des efforts continus de Microsoft pour créer sa propre pile de modèles d’IA multimodaux – et rivaliser avec les laboratoires d’IA concurrents – même s’il reste lié à OpenAI.
MAI-Transcribe-1 transcrit la parole dans 25 langues différentes en texte et est 2,5 fois plus rapide que l’offre Azure Fast de Microsoft, selon un communiqué de presse de l’entreprise. MAI-Voice-1 est un modèle de génération audio. Ce modèle vocal permet aux utilisateurs de générer 60 secondes d’audio en une seconde et permet aux utilisateurs de créer une voix personnalisée. MAI-Image-2 est un modèle de génération vidéo.
MAI-Image-2 a été initialement publié sur MAI Playground, un nouveau grand logiciel de test de modèles de langage, le 19 mars. Désormais, les trois modèles sont publiés sur Microsoft Foundry et les modèles de transcription et de voix sont également disponibles dans MAI Playground.
Les modèles ont été développés par l’équipe MAI Superintelligence de Microsoft, une équipe de recherche sur l’IA dirigée par Mustafa Suleyman, PDG de Microsoft AI, qui a été créée et annoncée en novembre 2025.
« Chez Microsoft AI, nous construisons une IA humaniste. Nous avons une vision distincte lors de la création de nos modèles d’IA : mettre les humains au centre, optimiser la façon dont les gens communiquent réellement, former à une utilisation pratique », a écrit Suleyman dans un article de blog. « Vous verrez bientôt plus de modèles de notre part dans Foundry et directement dans les produits et expériences Microsoft. »
Dans un marché LLM de plus en plus encombré, MAI espère qu’un argument de vente pour ces modèles est qu’ils sont moins chers que ceux de Google et OpenAI, a écrit la société dans le billet de blog.
Événement Techcrunch
San Francisco, Californie
|
13-15 octobre 2026
MAY-Transcribe-1 commence à 0,36 $ de l’heure. MAI-Voice-1 commence à 22 $ pour 1 million de caractères, et MAI-Image-2 commence à 5 $ pour 1 million de jetons pour la saisie de texte et 33 $ pour 1 million de jetons pour la sortie d’image.
Malgré la publication de ses propres modèles, Suleyman a réaffirmé l’engagement de Microsoft dans son partenariat avec OpenAI dans une interview avec VentureBeat – bien qu’une récente renégociation de ce partenariat ait permis à Microsoft de véritablement poursuivre cette recherche sur la superintelligence, a déclaré Suleyman à The Verge.
Microsoft a investi plus de 13 milliards de dollars dans le laboratoire de recherche en IA et héberge ses modèles dans ses différents produits grâce à un partenariat pluriannuel. Microsoft adopte la même position avec les puces ; elle produit ses propres produits et achète également auprès d’acteurs extérieurs.

