Meta Exec nie la société scolarisés artificiellement boostés de Benchmark de Llama 4

Un Meta Exec a nié lundi une rumeur selon laquelle la société a formé ses nouveaux modèles d’IA à bien présenter sur des références spécifiques tout en dissimulant les faiblesses des modèles.

L’exécutif, Ahmad al-Dahle, vice-président de l’IA génératif à Meta, a déclaré dans un article sur X qui est « » tout simplement pas vrai « que Meta a formé Hers Llama 4 Maverick et Llama 4 Scout Models on » Test Sets « . Dans les repères de l’IA, les ensembles de tests sont des collections de données utilisées pour évaluer les performances d’un modèle après sa formation. La formation sur les tests pourrait gonfler les scores de référence d’un modèle, ce qui rend le modèle plus capable qu’il ne l’est récemment.

Au cours du week-end, une rumeur sans substance qui a métadantialement augmenté artificiellement les résultats de référence de ses nouveaux modèles a commencé à circuler sur X et Reddit. La rumeur semble avoir originaire d’un article sur un site de médias sociaux chinois d’un utilisateur prétendant avoir affiné à partir de la méta pour protester contre les pratiques d’analyse comparative de l’entreprise.

Les rapports selon lesquels Maverick et Scout fonctionnent mal sur certaines tâches ont alimenté la rumeur, tout comme la décision de Meta d’utiliser une version expérimentale et inédite de Maverick pour obtenir de meilleurs scores sur la référence LM Arena. Des chercheurs sur X ont observé des difficultés marquantes dans le comportement du Maverick téléchargeable publiquement par rapport au modèle hébergé sur LM Arena.

Al-Dahle a reconnu que certains utilisateurs voyaient de la «qualité mixte» de Maverick et Scout à travers les différents fournisseurs de cloud hébergeant les modèles.

« Vente, nous avons abandonné les modèles dès que nous avons Redy, nous comptons qu’il faudra des jours Seveal pour que toutes les implémentations publiques soient composées », a déclaré Al-Dahle. «Nous continuerons à travailler sur nos corrections de bogues et nos partenaires d’intégration.»

Source link

What's Hot

Chiffrement, logiciels espions et maintenant mythes : l’histoire montre pourquoi le contrôle des cyberexportations ne fonctionne pas

Allez voir les robotaxis et les acquisitions après la plus grande introduction en bourse au Japon en 2026. Voici pourquoi c’est important

Singapour peut-elle devenir le centre neutre de l’IA en Asie ? Des entreprises américaines et chinoises s’implantent dans le pays

Meta Exec nie la société scolarisés artificiellement boostés de Benchmark de Llama 4

Chiffrement, logiciels espions et maintenant mythes : l’histoire montre pourquoi le contrôle des cyberexportations ne fonctionne pas

Allez voir les robotaxis et les acquisitions après la plus grande introduction en bourse au Japon en 2026. Voici pourquoi c’est important

L’impressionnant cadre photo à encre électronique d’Aura n’a même pas l’air numérique

Every fusion startup that has raised over $100M

L’introduction en bourse GMP d’aujourd’hui : l’abonnement à l’introduction en bourse de Turtlemint Fintech commence. Fourchette de prix, avis, etc.

Le partenaire Puey Quinones de FinTech Alliance PH lance la collection Modern Filipiniana pour l’Asean Tech Summit Manille 2026

Le partenaire Puey Quinones de FinTech Alliance PH lance la collection Modern Filipiniana pour l’Asean Tech Summit Manille 2026

Top Insights

Chiffrement, logiciels espions et maintenant mythes : l’histoire montre pourquoi le contrôle des cyberexportations ne fonctionne pas

Allez voir les robotaxis et les acquisitions après la plus grande introduction en bourse au Japon en 2026. Voici pourquoi c’est important

Singapour peut-elle devenir le centre neutre de l’IA en Asie ? Des entreprises américaines et chinoises s’implantent dans le pays

What's Hot

Meta Exec nie la société scolarisés artificiellement boostés de Benchmark de Llama 4

Related Posts

Subscribe to Updates