Le modèle de raisonnement R1 mis à jour de Deepseek pourrait attirer l’attention de l’attention de la communauté de l’IA cette semaine. Mais le laboratoire de l’IA chinois a également publié une version plus petite et «distillée» de son nouveau R1, Deepseek-R1-0528-QWEN3-8B, qui prétend que Deepseek bat des modèles de taille comparable sur certains repères.
Le plus petit R1 mis à jour, qui a été construit à l’aide du modèle QWEN3-8B, Alibaba a été lancé en mai comme fondation, mieux que Google’s Gemini 2.5 Flash que nous aimons 2025, une collection de questions mathématiques difficiles.
Deepseek-R1-0528-QWEN3-8B a également nécessaire le modèle de raisonnement PHI 4 plus publié par Microsoft sur un autre test de compétences en mathématiques, HMMT.
Les modèles dits distillés comme Deepseek-R1-0528-QWEN3-8B sont généralement moins capables de homologues de taille normale. Du côté le plus, ils sont beaucoup moins exigeants en calcul. Selon la plate-forme Cloud NodeHift, Qwen3-8b nécessite un GPU avec 40 Go-80 Go de RAM à fonctionner (par exemple, un NVIDIA H100). Le nouveau R1 en taille réelle a besoin d’environ une douzaine de GPU 80 Go.
Deepseek formé Deepseek-R1-0528-QWEN3-8B en prenant du texte généré par le R1 mis à jour et en l’utilisant pour affiner Qwen3-8b. Dans une page Web dédiée pour le modèle sur la plate-forme AI Dev Huging Face, Deepseek décrit Deepseek-R1-0528-QWEN3-8B comme «pour la recherche académique sur les modèles de raisonnement et le développement industriel axé sur les modèles à petite échelle.
Deepseek-R1-0528-QWEN3-8B est disponible sous une licence MIT permissive, ce qui signifie qu’elle peut être commercialement sans restriction. Plusieurs hôtes, dont LM Studio, proposent déjà le modèle via une API.