Plus tôt cette semaine, Meta a atterri dans de l’eau chaude pour utiliser une version expérimentale et inédite de son modèle LLAMA 4 Maverick pour obtenir un score élevé sur une référence crowdsourcée, LM Arena. L’incident incite les titulaires de LM Arena à s’excuser, à modifier leurs politiques et à marquer la vanille non modifiée.
Il s’avère que ce n’est pas très compétitif.
Le Maverick non modifié, «Llama-4-Maverick-17b-13b-128e-Instruct», a été classé ci-dessous les modèles inclus GPT-4O d’Openai, Claude 3.5 d’Anthropic et Sonnet et Google’s Gemini 1.5 Pro à vendredi. Beaucoup de ces modèles ont des mois.
La version de version de Llama 4 a été ajoutée à Lmarena après avoir été trouvée qu’elle avait triché, mais vous ne l’avez probablement pas vu parce que vous devez faire défiler jusqu’à la 32e place, c’est où se trouve ranches pic.twitter.com/a0bxkdx4lx
– ρ: ɡσn (@Pigeon__s) 11 avril 2025
Pourquoi la mauvaise performance? Le Maverick expérimental de Meta, Llama-4-Maverick-03-26-Experimental, a été «optimisé pour la conversation», a expliqué la société dans un chat publié samedi dernier. Ces optimisations ont évidemment bien joué à LM Arena, qui fait que les évaluateurs humains comparent les sorties des modèles et choisissent ce qu’ils préfèrent.
Comme nous sommes écrits auparavant, pour diverses raisons, LM Arena n’a jamais été la mesure la plus ravissante des performances d’un modèle d’IA. Pourtant, l’adapter un modèle à une référence – en plus d’être trompeur – rend difficile pour les développeurs de préactivement dans quelle mesure le modèle fonctionnera dans différents contextes.
Dans un statlement, un porte-parole de Meta a déclaré à TechCrunch que la méta-expérience avec «tous les types de variantes personnalisées».
« ‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée de discussion que nous avons vécue avec qui fonctionne également bien sur Lmarena », a déclaré le porte-parole. «Nous avons maintenant publié notre version open source et verrons comment les développeurs personnalisent Llama 4 pour leurs propres cas d’utilisation. Nous sommes ravis de voir ce qu’ils construisent et attendront avec impatience leurs commentaires.

