Les chercheurs de l’IA à Stanford et à l’Université de Washington ont pu former un modèle de «raisonnement» de l’IA pour moins de 50 $ en crédits de calcul cloud, selon un nouveau document de recherche publié vendredi dernier.
Le modèle connu sous le nom de S1 fonctionne de manière similaire aux modèles de raisonnement de pointe, tels que O1 d’OpenAI et R1 de Deepseek, sur les tests mesurant les capacités de mathématiques et de codage. Le modèle S1 est disponible sur GitHub, ainsi que les données et le code utilisés pour le former.
L’équipe derrière S1 a déclaré qu’elle avait commencé avec un modèle de base offensive, puis l’a affinée par la distillation, un processus pour extraire les capacités de «raisonnement» d’un autre modèle d’IA en s’entraînant sur ses réponses.
Les chercheurs ont déclaré que S1 est distillé à partir de l’un des modèles de raisonnement de Google, Gemini 2.0 Flash Thinking Experience. La distillation est la même approche que les chercheurs de Berkeley ont utilisée pour créer un modèle de raisonnement en IA pour un 450 le mois dernier.
Pour certains, l’idée que quelques chercheurs avec des millions de dollars derrière eux peuvent toujours innover dans l’espace d’IA est passionnant. Mais S1 soulève de vraies questions sur la marchandisation des modèles d’IA.
Où est le fossé si quelqu’un peut reproduire de près un modèle de plusieurs millions de dollars avec un changement de poche relatif?
Sans surprise, les grands laboratoires AI ne sont pas satisfaits. OpenAI a accusé Deepseek de récolter mal les données de son API aux fins de la distillation du modèle.
Les chercheurs derrière S1 cherchaient à trouver l’approche la plus simple pour obtenir de solides performances de raisonnement et une «mise à l’échelle du temps de test» ou permettre à un modèle d’IA de réfléchir davantage avant de répondre à une question. Ce sont quelques-unes des percées dans l’O1 d’Openai, que Deepseek et d’autres laboratoires AI ont tenté de reproduire à travers diverses techniques.
Le document S1 suggère que les modèles de raisonnement peuvent être distillés avec un ensemble de données relativement petit en utilisant un processus appelé affinage supervisé (SFT), dans lequel un modèle d’IA est explicitement chargé d’imiter certains comportements dans un ensemble de données.
SFT a tendance à être moins cher que la méthode d’apprentissage de renforcement à grande échelle que Deepseek a utilisé pour former son concurrent au modèle O1 d’Openai, R1.
Google offre un accès gratuit à Gemini 2.0 Flash Thinking Experimental, mais avec des limites de taux quotidiennes, via sa plate-forme Google AI Studio.
Les termes de Google interdisent la rétro-ingénierie de ses modèles pour développer des services qui comptent cependant les propres offres d’IA de l’entreprise. Nous avons contacté Google pour commenter.
S1 est basé sur un petit modèle AI standard du Lab Lab chinois AIBaba CHINOS, qui est disponible en téléchargement gratuitement. Pour former S1, les chercheurs ont créé un ensemble de données de seulement 1 000 questions soigneusement organisées, associées à des réponses à ces questions ainsi qu’au processus de «réflexion» derrière chaque réponse de la pensée Flash de Google de Google expérimentale.
Après l’entraînement S1, qui a pris moins de 30 minutes en utilisant 16 GPU NVIDIA H100, S1 a atteint de solides performances sur certains repères d’IA, selon les chercheurs. Niklas Muennighoff, un chercheur de Stanford qui a travaillé sur le projet, a déclaré à TechCrunch qu’il pourrait louer le calcul nécessaire aujourd’hui pour environ 20 $.
Les chercheurs ont utilisé une astuce astucieuse pour amener S1 à revérifier son travail et à prolonger son temps de «réflexion»: ils lui ont dit d’attendre. L’ajout du mot «attendre» pendant le raisonnement du S1 a aidé le modèle à arriver à des réponses légèrement plus précises, selon le journal.
En 2025, Meta, Google et Microsoft prévoient d’investir des centaines de milliards de dollars dans l’infrastructure d’IA, qui ira partiellement à la formation de modèles d’IA de nouvelle génération.
Ce niveau d’investissement peut encore être nécessaire pour pousser l’enveloppe de l’innovation de l’IA. La distillation s’est révélée être une bonne méthode pour recréer à moindre coût les capacités d’un modèle d’IA, mais elle ne crée pas de nouveaux modèles d’IA largement mieux que ce qui est conseillé aujourd’hui.