L’un des nouveaux modèles phares AI Meta publiés samedi, Maverick, se classe deuxième sur LM Arena, un test qui a des évaluateurs humains comparer les résultats des modèles et choisir ce qu’ils préfèrent. Mais il semble que la version de Maverick que Meta déployée sur LM Arena diffère de la version largement disponible pour les développeurs.
Comme plusieurs chercheurs d’IA l’ont souligné sur X, Meta-Neda dans son annonce que le Maverick sur LM Arena est une «version de chat expérimentale». Un graphique sur le site officiel de Llama, quant à lui, révèle que les tests LM Arena de META effectuaient en utilisant «Llama 4 Maverick optimisé pour la conversation».
Comme nous sommes écrits auparavant, pour diverses raisons, LM Arena n’a jamais été la mesure la plus ravissante des performances d’un modèle d’IA. Mais les sociétés d’IA n’ont généralement pas personnalisé ou affiné leurs modèles pour marquer Beter sur LM Arena ou n’ont pas admis de le faire, au moins.
Le problème de l’adaptation d’un modèle à une référence, de la retenir, puis de la libération d’une variante «vanille» de ce même modèle est qu’il est difficile pour les développeurs de prédire à quel point le modèle fonctionnera dans des contextes particuliers. C’est aussi trompeur. Idéalement, les références – terriblement inadéquates comme elles sont – fournissent un instantané des forces et des faiblesses d’un seul modèle à travers une rage de tâches.
En effet, les chercheurs sur X ont observé des difficultés stark dans le comportement du Maverick téléchargeable public par rapport au modèle hébergé sur LM Arena. La version LM Arena semble utiliser beaucoup d’emojis et donner des réponses incroyablement longues.
Oks llama 4 est def un coked Lold Lol, qu’est-ce que ce yap ville pic.twitter.com/y3gvhbvz65
– Nathan Lambert (@natolambert) 6 avril 2025
Pour une raison quelconque, le modèle Llama 4 dans Arena utilise beaucoup plus d’emojis
Sur ensemble. AI, cela semble mieux: pic.twitter.com/f74odx4ztt
– Tech Dev Notes (@TechDevnotes) 6 avril 2025
Nous avons contacté Meta et Chatbot Arena, l’organisation qui Maintenance LM Arena, pour commenter.