
Malgré la suggestion de son nom, OpenAI n’a pas publié de modèle « ouvert » en 2020, depuis GPT-2 et après GPT-2, y compris les paramètres numériques souvent décrits comme le cerveau des modèles. Il a été changé pour mardi.
« Le modèle est ravi de le rendre à la disposition du monde pour le mettre entre les mains du plus de personnes possible », a déclaré Sam Altman, PDG d’Openai, à propos du communiqué. « Dans le cadre de cela, nous sommes très ravis que cette version permette de nouveaux types de recherche et de création de nouveaux types de produits », a-t-il souligné, « nous sommes ravis de s’appuyer sur une pile d’IA ouverte créée aux États-Unis, disponible pour tous et des avantages plus larges, basés sur les valeurs démocratiques. »
Deux mois après avoir reconnu le succès du modèle ouvert chinois de Deepseek, Altman a admis que la société était « du mauvais côté de l’histoire » lorsqu’il a été contraint de taquiner les modèles à venir en mars et a ouvert le modèle aux développeurs et aux constructeurs. Cependant, bien que les poids soient désormais ouverts, les experts notent que le nouveau modèle d’Openai n’est guère « ouvert ». Les méthodes qui améliorent les modèles les plus avancés, notamment le joyau de la Couronne, sa propre architecture, les mécanismes de routage, les données de formation et le GPT-5 très attendu ce mois-ci ne seront jamais fermement publiés sous les wraps.
OpenAI cible les constructeurs et développeurs AI
Les deux nouveaux noms de modèles (GPT-OSS-120B et GPT-OSS-20B) peuvent ne pas être lisibles par les non-ingénieurs, mais c’est parce que OpenAI jette des vues sur les constructeurs d’IA et les développeurs qui essaient de s’appuyer rapidement sur des cas d’utilisation réels avec leurs propres systèmes. La société a noté que le plus grand des deux modèles peut fonctionner sur une seule puce NVIDIA 80 Go, tandis que les modèles plus petits peuvent s’adapter au matériel grand public comme les ordinateurs portables MAC.
Le co-fondateur et président de l’OpenAI, Greg Brockman, a confirmé lors d’un appel préalable à un rapport selon lequel cela a été « depuis longtemps » depuis que la société a publié le modèle ouvert. Il a ajouté que c’est « ce que nous considérons comme complémentaire aux autres produits que nous libérons », ainsi que le modèle d’Openai, « combiné pour vraiment accélérer notre mission au profit de toute l’humanité ».
Openai a déclaré que les modèles Openai, Humanity, Google et Deepseek fonctionnent bien avec les repères d’inférence qui sont devenus des mesures clés des performances d’IA farouchement concurrentes, leur capacité à lutter contre la logique en plusieurs étapes, la génération de code et la résolution de problèmes complexes. Étant donné que la profondeur open source R1 a secoué l’industrie avec ses capacités d’inférence à un coût beaucoup plus faible en janvier, de nombreux autres modèles chinois ont emboîté le pas, notamment le modèle Kimi de Qwen et Moonshot AI d’Alibaba. Openai a déclaré dans son rapport que le nouveau modèle OpenWeight est une approche proactive pour fournir ce que les utilisateurs veulent, mais il s’agit clairement d’une réponse stratégique pour renforcer la concurrence pour l’open source.
En particulier, OpenAI a rejeté l’indice de référence de nouveaux modèles ouverts pour les systèmes open source chinois tels que Deepseek et Qwen. Malgré le fait que ces modèles nous ont récemment dépassé les rivaux dans les références clés de l’inférence. Lors de la conférence de presse, la société a déclaré qu’elle était confiante dans ses références pour ses propres modèles et est convaincu qu’elle « terminera son cœur » en testant d’autres avec d’autres membres de l’IA.
Évitez les fuites de propriété intellectuelle
Le nouveau modèle de poids ouvert d’OpenAI est construit à l’aide d’une architecture Expul mixte (MOE), avec le système uniquement des « experts » ou des sous-réseaux. Il est nécessaire pour des entrées spécifiques, plutôt que d’utiliser l’ensemble du modèle pour chaque requête. Dylan Patel, fondateur de la société de recherche Semianalysis, a souligné dans un post X avant la sortie qui a formé le modèle en utilisant uniquement des composants publics de l’architecture. Il a souligné qu’il s’agissait d’un choix délibéré. Il vous permet de publier des modèles vraiment utiles sans exposer réellement la propriété intellectuelle qui améliore vos propres modèles de frontière comme le GPT-4O en évitant les techniques de formation uniques et les innovations architecturales.
Par exemple, dans la carte du modèle avec version, OpenAI a confirmé que le modèle utilise une architecture d’experts (MOE) avec 12 experts actifs sur 64, mais n’explique pas le mécanisme de routage, une partie importante et unique de l’architecture.
« Vous souhaitez minimiser le risque pour votre entreprise, mais vous voulez que ce soit (et) le plus utile au public », a déclaré la chercheuse DeepMind de Google, Aleksa Gordic à Fortune, ajoutant que des entreprises comme Meta et Mistral se concentrent également sur les modèles de poids ouvert mais n’incluent pas les informations de propriété.
« Ils minimisent les fuites IP, suppriment les risques pour leur cœur de métier et partagent des artefacts utiles qui permettent l’écosystème de démarrage et les développeurs », a-t-il déclaré. « Par définition, c’est le mieux qu’ils puissent faire, compte tenu de ces deux objectifs contradictoires. »

