Deepseek a peut-être utilisé les Gémeaux de Google pour former son dernier modèle

Le week-end dernier, Chinese Lab Deepseek a publié une version mise à jour de son modèle R1 Reasoning AI qui fonctionne bien sur un certain nombre de repères mathématiques et codants. L’entreprise n’a pas révélé la source des données qu’elle a utilisées pour former le modèle, mais certains chercheurs de l’IA spéculent qu’au moins une portion de came de la famille Gemini d’IA de Google.

Sam Paech, un développeur basé à Melbourne qui crée des évaluations de l’intelligence émotionnelle pour l’IA, a publié ce qu’il prétend être la preuve que le dernier modèle de Deecseek a été formé sur les résultats des Gémeaux. Le modèle de Deepseek, appelé R1-0528, préfère les mots et les expressions similaires à ceux que les favoris Gemini 2.5 Pro de Google, ont déclaré Paech dans un post X.

Si vous vous demandez pourquoi le nouveau R1 Deepseek semble un peu différent, je pense qu’ils sont probablement passés de l’entraînement sur les sorties synthétiques OpenAI aux sorties de gemini synthétiques. pic.twitter.com/oex9roapnv

– Sam Paech (@sam_paech) 29 mai 2025

Ce n’est pas un pistolet de smoking. Mais un autre développement, le créateur pseudonyme d’une «évaluation de la liberté d’expression» pour l’IA appelée SpeechMap, a noté les traces du modèle Deepseek – les «pensées» que le modèle génère telle qu’elle fonctionne vers une conclusion – «Lisez comme des traces de gemini».

Deepseek a été accusé de formation sur les données des modèles d’intermédiaire rivale auparavant. En décembre, les développeurs ont observé que le modèle V3 de Deecseek s’identifiait souvent comme étant la plate-forme de chatbot AI-Power d’Openai, ce qui suggère qu’il a été formé sur les journaux de chat ChatGpt.

Plus tôt cette année, OpenAI a déclaré au Financial Times qu’il avait trouvé des preuves reliant Deepseek à l’utilisation de la distillation, une technique pour former des modèles d’IA en extraitant des données de plus grandes et plus compétentes. Selon Bloomberg, Microsoft, un collaborateur et investisseur d’OpenAI de près, a détesté que de grandes quantités de données étaient exfiltrates via des comptes de développeurs OpenAI à la fin de 2024 – DeSnai estime que Deepseek est affilié à Deepseek.

La distillation n’est pas une pratique rare, mais les conditions d’utilisation d’OpenAI interdisent aux clients d’utiliser les sorties du modèle de l’entreprise pour construire une AI terminée.

Pour être clair, de nombreux modèles se moquent eux-mêmes et convergent sur les mêmes mots et les mêmes tours de phrases. En effet Les fermes de contenu utilisent l’IA pour créer des appâts clics, et les robots inondent Reddit et X.

Cette «contamination», si vous voulez, a rendu difficile le filtre approfondi des sorties AI des ensembles de données de formation.

Pourtant, des experts de l’IA comme Nathan Lambert, chercheur à l’Institut de recherche AI à but non lucratif AI2, Don pense qu’il est hors de question que Deepseek s’est formé sur les données des Gémeaux de Google.

« Si j’étais Deepseek, je créerais certainement une tonne de données synthétiques du meilleur modèle API », a écrit Lambert dans un article sur X. «(Deepseek est) des shorts sur les GPU et rincez avec de l’argent. C’est littéralement plus complété plus pour eux.»

Si j’étais Deepseek, je créerais certainement une tonne de données synthétiques du meilleur modèle API. Ils manquent de GPU et rincent avec de l’argent. C’est littéralement efficacement plus calculant pour eux. Oui sur la question de distill Gemini.

– Nathan Lambert (@natolambert) 3 juin 2025

En partie dans le but de prendre la distillation, les sociétés d’IA ont augmenté les mesures de sécurité.

En avril, OpenAI a commencé à exiger que les organisations terminent un processus de vérification d’identification d’identification afin d’accéder à certains modèles avancés. Le processus nécessite un ID émis par le gouvernement de l’un des pays soutenus par l’API d’Openai; La Chine n’est pas sur la liste.

Shewher, Google a récemment commencé à «résumer» les traces générées par des modèles disponibles via sa plate-forme de développeur de studio AI, une étape qui le rend plus difficile pour des modèles rivaux de train efficaces sur les traces de gemini. Anthropic en mai a déclaré qu’il commencerait à résumer les traces de son propre modèle, ce qui a le besoin de protéger ses «avantages concurrentiels».

Nous avons contacté Google pour commenter et mettre à jour cette pièce si nous entendons.

Source link

What's Hot

Réveil à Londres à Wise

Une fois ses données essuyées, le co-fondateur de Kiranapro ne peut pas exclure un piratage externe

Rencontrez les finalistes: les 5 startups les plus visionnaires de Vivatech de 2025

Deepseek a peut-être utilisé les Gémeaux de Google pour former son dernier modèle

Une fois ses données essuyées, le co-fondateur de Kiranapro ne peut pas exclure un piratage externe

Rencontrez les finalistes: les 5 startups les plus visionnaires de Vivatech de 2025

Trump accélére les voyages supersoniques, au milieu de la série de décrets liés aux vols

TechCrunch Mobility: Comment Lovefrom de Jony Ive a aidé Rivian et ce que le manuel de génération UXT comme Like

La startup fintech Decentro augmente 30 crore £ pour déplacer sa résidence en Inde

FinTech et Neobanks poussent les banques à repenser l’avenir des dépôts

FinTech et Neobanks poussent les banques à repenser l’avenir des dépôts

Top Insights

Réveil à Londres à Wise

Une fois ses données essuyées, le co-fondateur de Kiranapro ne peut pas exclure un piratage externe

Rencontrez les finalistes: les 5 startups les plus visionnaires de Vivatech de 2025

What's Hot

Deepseek a peut-être utilisé les Gémeaux de Google pour former son dernier modèle

Related Posts

Subscribe to Updates