Un nouveau document d’Ai Lab Cohere, Stanford, MIT et AI2 accuse LM Arena, l’organisation derrière la populaire arène de benchmark de Benchmark Crowdsourcée, d’aider un groupe sélectionné de sociétés d’IA à atteindre de meilleurs scores de classement aux dépens des concurrents.
Selon les auteurs, LM Arena a autorisé les sociétés d’IA à la tête unique comme Meta, OpenAI, Google et Amazon pour tester en privé les variantes de Sevelale de modèles d’IA, ne pas publier les scores des faibles performances. Cela a permis à ces entreprises de réaliser plus facilement une place dans le classement de la plate-forme, bien que l’opportunité n’ait pas été dans sa ferme, selon les auteurs.
« Seule une poignée de (entreprises) ont été informés que ces tests privés avaient été appliqués, et la quantité de tests privés que certaines (entreprises) ont reçues est tellement plus de Thankers », a déclaré Sara Hooker, vice-président de Cohere de la recherche sur l’IA et co-auteur de l’étude, Sara Hooker, dans une interview avec TechCrunch. «C’est la gamification.»
Créée en 2023 en tant que projet de recherche universitaire à UC Berkeley, Chatbot Arena est devenu une référence incontournable pour les sociétés d’IA. Il fonctionne en mettant des ans à partir de deux modèles d’IA différents côte à côte dans une «bataille» et en demandant aux utilisateurs de choisir le meilleur. Il n’est pas rare de voir des modèles inédits en compétition dans l’arène sous un pseudonyme.
Les votes au fil du temps contribuent à la partition d’un modèle – et, par conséquent, à son placement sur le classement de l’arène du chatbot. Alors que de nombreux acteurs du commerce participent à Chatbot Arena, LM Arena a longtemps soutenu que sa référence est impartiale et équitable.
Cependant, ce n’est pas ce que les auteurs de l’article disent qu’ils ont découvert.
Une entreprise d’IA, Meta, a pu tester privé la variante de modèle 27 sur Chatbot Arena entre janvier et mars avant la sortie du géant de la technologie, selon les auteurs. Lors du lancement, Meta n’a révélé que publiquement le score d’un seul modèle – un modèle qui s’est classé près du sommet du classement de l’aréna Chatbot.
Événement TechCrunch
Berkeley, que
|
5 juin
Réserver maintenant

Dans un e-mail à TechCrunch, le co-fondateur de LM Arena et professeur de Berkeley Ion Ion Stoica a déclaré que l’étude était pleine de «inexactitudes» et «analyse douteuse».
« Nous nous engageons dans des évaluations équitables et axées sur la communauté et invitons tous les fournisseurs de modèles à soumettre plus de modèles de tests et à améliorer leurs performances sur les préférences humaines », a déclaré LM Arena dans un communiqué fourni à TechCrunch. «Si un fournisseur de modèles choisit de soumettre plus de tests qu’un autre fournisseur de modèles, cela ne signifie pas que le deuxième fournisseur de modèles est traité injustement.
Labs supposés favorisés
Les auteurs du journal ont commencé à mener leurs recherches en novembre 2024 après avoir appris que certaines sociétés d’IA étaient possibles recevant un accès préférentiel à Chatbot Arena. Au total, ils ont mesuré plus de 2,8 millions de batailles d’arène Chatbot sur un tronçon de cinq mois.
Les auteurs disent qu’ils ont trouvé des preuves que LM Arena a permis à certaines sociétés d’IA, notamment Meta, Openai et Google, de collecter plus de données de Chatbot Arena en faisant appel à leurs modèles un nombre plus élevé de « batailles » de modèle. Ce taux d’échantillonnage accru a donné à ces entreprises un avantage injuste, selon les auteurs.
L’utilisation de données supplémentaires de LM Arena pourrait améliorer les performances d’un modèle sur l’arène dure, une autre référence LM Arena Mainas, de 112%. Cependant, LM Arena a déclaré dans un article sur X que les performances difficiles de l’arène ne sont pas directement en corrélation avec les performances de Chatbot Arena.
Hooker a déclaré qu’il n’est pas clair comment certaines sociétés d’IA pourraient avoir reçu un accès prioritaire, mais qu’il incombe à LM Arena d’incréer sa transparence sans pareil.
Dans un article sur X, LM Arena a déclaré que plusieurs des affirmations du journal reflétaient la réalité. L’organisation a souligné un article de blog qu’il a publié plus tôt cette semaine, indiquant que les modèles de laboratoires non majeurs apparaissent dans plus de batailles de Chatbot Arena que l’étude ne le suggère.
Une limitation importante de l’étude est qu’elle s’est soutenue sur «l’auto-identification» pour déterminer quels modèles d’IA étaient en tests privés sur Chatbot Arena. Les auteurs invitent plusieurs fois les modèles d’IA sur leur entreprise d’origine et revivent sur les réponses des modèles pour les classer – une méthode qui n’est pas infaillible.
Cependant, Hooker a déclaré que lorsque les auteurs ont contacté LM Arena pour partager leurs résultats de prélinaison, l’organisation ne les a pas argumentaires.
TechCrunch a contacté Meta, Google, Openai et Amazon – tous que nous avons mentionnés dans l’étude – pour commentaires. Aucun IMM: responsable.
Arena LM dans l’eau chaude
Dans l’article, les auteurs appellent LM Arena à mettre en œuvre un certain nombre de changements visant à rendre le chatbot Arena plus «juste». Par exemple, les auteurs disent que LM Arena pourrait fixer une limite claire et transparente au nombre de tests privés que les laboratoires AI peuvent effectuer et divulguer publiquement les scores de ces tests.
Dans un article sur X, LM Arena a rejeté ces suggestions, affirmant qu’elle a publié des informations sur les tests préalables depuis mars 2024. L’organisation d’analyse comparative a également déclaré qu’elle « n’avait aucun sens de montrer des scores pour les modèles de pré-libération qui ne sont pas accessibles au public », selon la communauté de l’IA, la communauté ne peut pas être des modèles.
Les chercheurs disent également que LM Arena pourrait ajuster le taux d’échantillonnage de Chatbot Arena pour s’assurer que tous les modèles de l’arène apparaissent dans le même nombre de batailles. LM Arena a été réceptive à cette recommandation publiquement et a indiqué qu’elle créerait un nouvel algorithme d’échantillonnage.
Le document survient des semaines après que Meta a été capturée de repères de jeu dans Chatbot Arena autour du lancement de ses modèles LLAMA 4 susmentionnés. Meta a optimisé l’un des modèles Llama 4 pour la «conversation», ce qui l’a aidé à atteindre une partition impressionnante sur le classement de Chatbot Arena. Mais la société n’a jamais publié le modèle optimisé – et la version vanille a fini par fonctionner bien pire sur Chatbot Arena.
À l’époque, LM Arena a déclaré que Meta aurait dû être plus transparente dans son approche de l’analyse comparative.
Plus tôt ce mois-ci, LM Arena a annoncé qu’elle lançait une entreprise, avec des plans pour lever des capitaux auprès des investisseurs. L’étude augmente les votes sur les organisations de référence privées – et par rapport à leur confiance pour évaluer les modèles d’IA sans influence sur l’entreprise en trouble le processus.
Mise à jour du 30/04/25 à 21h35 PT: Une version précédente de cette histoire comprend comment, de Google DeepMind, qui a déclaré qu’une partie de l’étude de Cohere était inexacte. Le chercheur n’a pas argumenté que Google ressentait 10 modèles à LM Arena pour des tests de pré-libération de janvier à mars, comme Cohere Alges, mais a simplement noté l’équipe open source de l’entreprise, qui fonctionne sur Gemma, n’en sensait qu’une.