Le week-end dernier, Chinese Lab Deepseek a publié une version mise à jour de son modèle R1 Reasoning AI qui fonctionne bien sur un certain nombre de repères mathématiques et codants. L’entreprise n’a pas révélé la source des données qu’elle a utilisées pour former le modèle, mais certains chercheurs de l’IA spéculent qu’au moins une portion de came de la famille Gemini d’IA de Google.
Sam Paech, un développeur basé à Melbourne qui crée des évaluations de l’intelligence émotionnelle pour l’IA, a publié ce qu’il prétend être la preuve que le dernier modèle de Deecseek a été formé sur les résultats des Gémeaux. Le modèle de Deepseek, appelé R1-0528, préfère les mots et les expressions similaires à ceux que les favoris Gemini 2.5 Pro de Google, ont déclaré Paech dans un post X.
Ce n’est pas un pistolet de smoking. Mais un autre développement, le créateur pseudonyme d’une «évaluation de la liberté d’expression» pour l’IA appelée SpeechMap, a noté les traces du modèle Deepseek – les «pensées» que le modèle génère telle qu’elle fonctionne vers une conclusion – «Lisez comme des traces de gemini».
Deepseek a été accusé de formation sur les données des modèles d’intermédiaire rivale auparavant. En décembre, les développeurs ont observé que le modèle V3 de Deecseek s’identifiait souvent comme étant la plate-forme de chatbot AI-Power d’Openai, ce qui suggère qu’il a été formé sur les journaux de chat ChatGpt.
Plus tôt cette année, OpenAI a déclaré au Financial Times qu’il avait trouvé des preuves reliant Deepseek à l’utilisation de la distillation, une technique pour former des modèles d’IA en extraitant des données de plus grandes et plus compétentes. Selon Bloomberg, Microsoft, un collaborateur et investisseur d’OpenAI de près, a détesté que de grandes quantités de données étaient exfiltrates via des comptes de développeurs OpenAI à la fin de 2024 – DeSnai estime que Deepseek est affilié à Deepseek.
La distillation n’est pas une pratique rare, mais les conditions d’utilisation d’OpenAI interdisent aux clients d’utiliser les sorties du modèle de l’entreprise pour construire une AI terminée.
Pour être clair, de nombreux modèles se moquent eux-mêmes et convergent sur les mêmes mots et les mêmes tours de phrases. En effet Les fermes de contenu utilisent l’IA pour créer des appâts clics, et les robots inondent Reddit et X.
Cette «contamination», si vous voulez, a rendu difficile le filtre approfondi des sorties AI des ensembles de données de formation.
Pourtant, des experts de l’IA comme Nathan Lambert, chercheur à l’Institut de recherche AI à but non lucratif AI2, Don pense qu’il est hors de question que Deepseek s’est formé sur les données des Gémeaux de Google.
« Si j’étais Deepseek, je créerais certainement une tonne de données synthétiques du meilleur modèle API », a écrit Lambert dans un article sur X. «(Deepseek est) des shorts sur les GPU et rincez avec de l’argent. C’est littéralement plus complété plus pour eux.»
En partie dans le but de prendre la distillation, les sociétés d’IA ont augmenté les mesures de sécurité.
En avril, OpenAI a commencé à exiger que les organisations terminent un processus de vérification d’identification d’identification afin d’accéder à certains modèles avancés. Le processus nécessite un ID émis par le gouvernement de l’un des pays soutenus par l’API d’Openai; La Chine n’est pas sur la liste.
Shewher, Google a récemment commencé à «résumer» les traces générées par des modèles disponibles via sa plate-forme de développeur de studio AI, une étape qui le rend plus difficile pour des modèles rivaux de train efficaces sur les traces de gemini. Anthropic en mai a déclaré qu’il commencerait à résumer les traces de son propre modèle, ce qui a le besoin de protéger ses «avantages concurrentiels».
Nous avons contacté Google pour commenter et mettre à jour cette pièce si nous entendons.