Openai a lancé vendredi un nouveau modèle de «raisonnement» d’IA, O3-Mini, le plus récent de la famille O de modèles de raisonnement de l’entreprise.
Openai a d’abord prévu le modèle en décembre aux côtés d’un système plus capable appelé O3, mais le lancement arrive à un moment charnière pour l’entreprise, dont les ambitions – et les défis – se développent de jour en jour.
Openai lutte contre la perception que c’est le groupe de célèbre dans la course de l’IA vers des sociétés chinoises comme Deepseek, que Openai Alges aurait pu voler sa propriété intellectuelle. Il a essayé de consolider sa relation avec sans poursuite un projet de centre de données ambitieux et, comme il rapporte le petit travail pour l’une des grandes rondes de financement de l’histoire.
Ce qui nous amène à O3-MinI. OpenAI lance son nouveau modèle comme à la fois «puissant» et «abordable».
« Les marques de lancement d’aujourd’hui (…) une étape importante vers l’élargissement de l’accessibilité à l’IA avancée au service de notre mission », a déclaré un porte-parole d’OpenAI à TechCrunch.
Raisonnement plus efficace
Contrairement à la plupart des modèles de langage, de raisons de raisonnement comme O3-MinI se vérifient complètement avant de donner des résultats. Cela les aide à éviter certains des pièges qui déclenchent normalement des modèles. Ces modèles de raisonnement prennent un peu plus de temps pour arriver à des solutions, mais le compromis est qu’ils ont tendance à être lus fiables, mais pas des domaines parfaits comme la physique.
O3-MinI est affiné pour les problèmes STEM, spécialement pour la programmation, les mathématiques et les sciences. OpenAI affirme que le modèle est largement allumé avec la famille O1, O1 et O1-MinI, en termes de capacités, mais fonctionne plus vite et coûte moins cher.
La société a affirmé que les testeurs externes préféraient les réponses d’O3-Mini sur ceux de O1-Mini plus de la moitié du temps. O3-MinI a apparemment également fait 39% de «erreurs majeures» en moins sur les «questions difficiles du monde réel» dans les tests A / B par rapport à O1-MINI, et a produit des réponses «plus claires» tout en fournissant des réponses environ 24% plus rapidement.
O3-MinI sera disponible pour tous les utilisateurs via Chatgpt à partir de vendredi, mais les utilisateurs qui paient pour le chatppt plus d’Openai et les plans d’équipe obtiendront une limite de taux élevée de 150 requêtes par jour. Les abonnés ChatGpt Pro auront un accès illimité, et O3-Mini viendra aux clients de ChatGpt Enterprise et ChatGpt Edu en une semaine. (Pas encore de mot sur Chatgpt Gov).
Les utilisateurs avec des plans premium peuvent sélectionner O3-MINI à l’aide du menu déroulant Chatgpt. Les utilisateurs gratuits peuvent cliquer ou appuyer sur le nouveau bouton «Raison» dans le bar Cat, ou avoir un chat «réénerver» un an.
À partir du vendredi, O3-Minini sera également disponible via l’API d’OpenAI pour sélectionner les développeurs, mais il n’aura initialement pas de support pour l’analyse des images. Les développeurs peuvent sélectionner le niveau de «l’effort de raisonnement» (faible, moyen ou élevé) pour faire en sorte que O3 Mini soit «plus dur» en fonction de leurs besoins d’utilisation et de latence.
O3-MININI est au prix de 0,55 $ par million de jetons d’entrée CACRED et 4,40 $ par million de jetons de production, où un million de jetons équivaut à environ 750 000 mots. Cela est 63% moins cher que O1-MinI et compétitif avec les prix du modèle de raisonnement R1 de Deepseek. Deepseek facture 0,14 $ par million de jetons d’entrée CACRed et 2,19 $ par million de jetons de sortie pour l’accès R1 via son API.
Dans Chatgpt, O3-Minini est réglé sur un effort de raisonnement moyen, qui Openai dit que les prestataires «un compromis d’équilibre entre la vitesse et la précision». Les utilisateurs payants auront la possibilité de sélectionner «O3-MinI-High» dans le sélecteur de modèles, qui fournira ce qu’Openai appelle «une intelligence plus élevée» en échange de réponses plus lentes.
Quelle que soit la version des utilisateurs d’O3-Mini ChatGpt, le modèle fonctionnera avec la recherche pour trouver des réponses à jour avec des liens vers la liaison des sources Web. Ouvert les cations que la fonctionnalité est un «prototype» car il fonctionne pour intégrer la recherche sur ses modèles de raisonnement.
« Alors que O1 reste notre modèle de raisonnement plus large de connaissances générales, O3-MINI fournit une alternative spécialisée pour les domaines techniques nécessitant une précision et une vitesse », a écrit Openai dans un article de blog vendredi. « La libération d’O3-Mini marque une autre étape dans la mission d’Openai de repousser les limites de l’intelligence rentable. »
Les grottes abondent
O3-Minini n’est pas le modèle le plus puissant d’Openai à ce jour, ni le modèle de raisonnement R1 de Leapfrog Deepseek dans chaque référence.
O3-Minini bat R1 We Love 2024, un test qui mesure à quel point les modèles comprennent et réagissent aux instructions complexes mais uniquement avec un effort de raisonnement élevé. Il bat également R1 sur le test axé sur la programmation SWE-Bench vérifié (par. 1 point), mais encore une fois, seulement avec un effort de raisonnement élevé. Sur un faible effort de raisonnement, O3-MinI est à la traîne R1 sur GPQA Diamond, qui teste des modèles avec des questions PhD-Learl Physics, Biology et Chemistry.
Pour être juste, O3-MinI Yearswers Mayry Queries à Compeitty faible coût et latence. Dans le post, Openai comparatif de ses performances à la famille O1:
« Avec un faible effort de raisonnement, O3-Minini obtient des performances comparables avec O1-MINI, tandis qu’avec un effort moyen, O3-MinI obtient des performances comparables avec O1 », écrit Openai. «O3-MinI avec un effort de raisonnement moyen correspond aux performances de O1 en mathématiques, codage et science tout en fournissant fasci. Pendant ce temps, avec un effort de raisonnement élevé, O3-Mini surpasse à la fois O1-MinI et O1. «
Il convient de noter que l’avantage de performance d’O3-Mini sur O1 est mince dans certaines régions. Nous aimons 2024, O3-MinI bat O1 de seulement 0,3 point de pourcentage lorsqu’il est réglé sur un effort de raisonnement élevé. Et sur GPQA Diamond, O3-Minini ne dépasse pas le score d’O1 même sur un effort de raisonnement élevé.
Openai Enserte que O3-Minini est aussi «sûr» ou plus sûr que la famille O1, cependant, grâce aux efforts d’équipement rouge et à sa méthodologie «d’alignement délibératif», qui fait que les modèles «réfléchissent» à la politique de sécurité d’Openai pendant qu’ils interrogent. Selon la société, O3-Mini «dépasse significatif» l’un des modèles phares d’Openai, GPT-4O, sur «les évaluations de sécurité et de jailbreaks difficiles».
TechCrunch a une newsletter axée sur l’IA! Inscrivez-vous ici pour l’obtenir dans votre boîte de réception tous les mercredis.