Un Meta Exec a nié lundi une rumeur selon laquelle la société a formé ses nouveaux modèles d’IA à bien présenter sur des références spécifiques tout en dissimulant les faiblesses des modèles.
L’exécutif, Ahmad al-Dahle, vice-président de l’IA génératif à Meta, a déclaré dans un article sur X qui est « » tout simplement pas vrai « que Meta a formé Hers Llama 4 Maverick et Llama 4 Scout Models on » Test Sets « . Dans les repères de l’IA, les ensembles de tests sont des collections de données utilisées pour évaluer les performances d’un modèle après sa formation. La formation sur les tests pourrait gonfler les scores de référence d’un modèle, ce qui rend le modèle plus capable qu’il ne l’est récemment.
Au cours du week-end, une rumeur sans substance qui a métadantialement augmenté artificiellement les résultats de référence de ses nouveaux modèles a commencé à circuler sur X et Reddit. La rumeur semble avoir originaire d’un article sur un site de médias sociaux chinois d’un utilisateur prétendant avoir affiné à partir de la méta pour protester contre les pratiques d’analyse comparative de l’entreprise.
Les rapports selon lesquels Maverick et Scout fonctionnent mal sur certaines tâches ont alimenté la rumeur, tout comme la décision de Meta d’utiliser une version expérimentale et inédite de Maverick pour obtenir de meilleurs scores sur la référence LM Arena. Des chercheurs sur X ont observé des difficultés marquantes dans le comportement du Maverick téléchargeable publiquement par rapport au modèle hébergé sur LM Arena.
Al-Dahle a reconnu que certains utilisateurs voyaient de la «qualité mixte» de Maverick et Scout à travers les différents fournisseurs de cloud hébergeant les modèles.
« Vente, nous avons abandonné les modèles dès que nous avons Redy, nous comptons qu’il faudra des jours Seveal pour que toutes les implémentations publiques soient composées », a déclaré Al-Dahle. «Nous continuerons à travailler sur nos corrections de bogues et nos partenaires d’intégration.»

