La startup d’IA chinoise Deepseek a choqué le monde en janvier avec un modèle d’IA appelé R1. Il a été construit à une fraction du coût d’autres modèles et libéré gratuitement en utilisant beaucoup moins de puces Nvidia. Maintenant, deux semaines seulement après que OpenAI a débuté son dernier modèle, le GPT-5, Deepseek est revenu avec une mise à jour de son modèle phare V3 qui indique qu’il correspondra au GPT-5 sur plusieurs repères.
Le nouveau modèle V3.1 de Deepseek a été publié tranquillement avec un message à WeChat, une application de messagerie et sociale tout-en-un chinoise, et l’un des groupes sur la plate-forme Face Hugging. Ses débuts abordent certaines des plus grandes histoires d’IA d’aujourd’hui à la fois. Deepseek est un élément central de la poussée plus large de la Chine pour développer, déployer et contrôler les systèmes d’IA avancés sans s’appuyer sur les technologies étrangères. (En fait, le nouveau modèle V3 de Deepseek a été spécialement réglé pour bien fonctionner avec les puces de fabrication chinoise.)
Bien que les entreprises américaines hésitent à adopter le modèle Deepseek, il est largement adopté en Chine et de plus en plus adopté dans d’autres parties du monde. Même certaines entreprises américaines ont construit leurs applications sur le modèle d’inférence R1 de Deepseek. Dans le même temps, les chercheurs avertissent que la production du modèle est souvent étroitement soutenue par un récit étroitement approuvé par le Parti communiste chinois.
La poussée de l’IA en Chine dépasse Deepseek. L’industrie comprend également des modèles tels que Kimi de Alibaba, Kimi de Moonshot AI et Ernie de Baidu. Cependant, la nouvelle version de Deepseek vient juste après le GPT-5 d’Openai (un développement qui a atteint les attentes élevées des observateurs de l’industrie).
Openai s’inquiète pour la Chine et Deepseek
Les efforts de Deepseek gardent certainement notre laboratoire sur les orteils. Lors d’un récent dîner avec des journalistes, le PDG d’Openai, Sam Altman, a déclaré que la concurrence croissante avec les modèles open source chinois, dont Deepseek, avait influencé la décision de son entreprise de publier son propre modèle de poids ouvert il y a deux semaines.
« Si nous ne faisions pas cela, il était clair que le monde serait principalement construit sur le modèle open source de la Chine », a déclaré Altman. « C’est ce qui nous a fait décider. Certes. Ce n’était pas le seul, mais c’était imminent. »
De plus, la semaine dernière, les États-Unis ont accordé des licences NVIDIA et AMD pour exporter des puces d’IA spécifiques à la Chine, y compris le H20 de NVIDIA, seulement si elles ont accepté de passer 15% des revenus à Washington à partir de ces ventes. Pékin a été rapidement repoussé et a déménagé pour limiter l’achat de puces Nvidia après que Howard Lutnick de Commerce a déclaré à CNBC le 15 juillet.
En optimisant Deepseek, une puce de fabrication chinoise, la société montre sa résilience aux restrictions d’exportation américaines et sa volonté de réduire sa dépendance à l’égard de NVIDIA. Le WECHAT Post de Deepseek a noté que le nouveau format modèle est optimisé pour que les «puces nationales de nouvelle génération soient publiées bientôt».
Au même dîner, Altman a averti que les États-Unis pourraient sous-estimer la complexité et la gravité des progrès de la Chine dans l’IA, affirmant que le contrôle des exportations n’est pas une solution fiable.
« Je m’inquiète pour la Chine », a-t-il déclaré.
Ce n’est pas un saut dramatique, mais ça continue à chaque instant
Techniquement, ce qui rend le nouveau modèle Deepseek remarquable, c’est la façon dont il a été construit, car il y a des avancées que les consommateurs ne peuvent pas voir. Cependant, pour les développeurs, ces innovations rendent la V3.1 moins chère et polyvalente que beaucoup de ses modèles rivaux fermés et plus chers.
Par exemple, la v3.1 est énorme, avec 68,5 milliards de paramètres, au niveau de nombreux modèles de «frontière» supérieurs. Cependant, cette conception « mélange » signifie que seule une petite partie du modèle est active lors de la réponse à une requête, maintenant l’informatique des développeurs coûte faible. De plus, contrairement aux modèles Deepseek précédents, qui divisent les tâches auxquelles on peut répondre instantanément sur la base des préventes de modèles de celles qui nécessitaient une inférence étape par étape, V3.1 combine à la fois des réponses rapides et une inférence dans un seul système.
Les derniers modèles de GPT-5 et Anthropic et Google ont des capacités similaires. Cependant, il existe peu de modèles de poids ouvert qui ont pu le faire auparavant. L’architecture hybride V3.1 est « la plus grande caractéristique de Flocking », a déclaré à Fortune Ben Dickson, analyste technologique et fondatrice du blog TechTalks.
D’autres soulignent que ce modèle Deepseek est inférieur au modèle R1 de l’entreprise, c’est pourquoi il a été distillé pour sa distillation de la V3 d’origine qui a choqué le monde en janvier, mais le nouveau V3.1 est toujours proéminent. « Nous nous engageons à fournir une gamme de services à nos clients », a déclaré William Falcon, fondateur et PDG de la plate-forme de développeur AI Lightning AI. Cependant, il a ajouté qu’il s’attend à ce que Openai réponde si son propre modèle open source « commence à prendre un retard significatif » et a noté que le modèle Deepseek est difficile pour les développeurs pour entrer en production, mais la version d’Openai est assez facile à déployer.
Cependant, pour tous les détails techniques, la dernière version de Deepseek souligne le fait que l’IA est de plus en plus considérée comme faisant partie de la guerre froide technique entre les États-Unis et la Chine. Dans cet esprit, il y a des raisons de s’inquiéter que si les entreprises chinoises peuvent construire de meilleurs modèles d’IA, ce qu’ils prétendent n’est qu’une petite partie du coût, les concurrents américains resteront en avance.