Meta's Vanilla Maverick AI Model se classe en dessous des concurrents sur le benchmark de chat populaire

Plus tôt cette semaine, Meta a atterri dans de l’eau chaude pour utiliser une version expérimentale et inédite de son modèle LLAMA 4 Maverick pour obtenir un score élevé sur une référence crowdsourcée, LM Arena. L’incident incite les titulaires de LM Arena à s’excuser, à modifier leurs politiques et à marquer la vanille non modifiée.

Il s’avère que ce n’est pas très compétitif.

Le Maverick non modifié, «Llama-4-Maverick-17b-13b-128e-Instruct», a été classé ci-dessous les modèles inclus GPT-4O d’Openai, Claude 3.5 d’Anthropic et Sonnet et Google’s Gemini 1.5 Pro à vendredi. Beaucoup de ces modèles ont des mois.

La version de version de Llama 4 a été ajoutée à Lmarena après avoir été trouvée qu’elle avait triché, mais vous ne l’avez probablement pas vu parce que vous devez faire défiler jusqu’à la 32e place, c’est où se trouve ranches pic.twitter.com/a0bxkdx4lx

– ρ: ɡσn (@Pigeon__s) 11 avril 2025

Pourquoi la mauvaise performance? Le Maverick expérimental de Meta, Llama-4-Maverick-03-26-Experimental, a été «optimisé pour la conversation», a expliqué la société dans un chat publié samedi dernier. Ces optimisations ont évidemment bien joué à LM Arena, qui fait que les évaluateurs humains comparent les sorties des modèles et choisissent ce qu’ils préfèrent.

Comme nous sommes écrits auparavant, pour diverses raisons, LM Arena n’a jamais été la mesure la plus ravissante des performances d’un modèle d’IA. Pourtant, l’adapter un modèle à une référence – en plus d’être trompeur – rend difficile pour les développeurs de préactivement dans quelle mesure le modèle fonctionnera dans différents contextes.

Dans un statlement, un porte-parole de Meta a déclaré à TechCrunch que la méta-expérience avec «tous les types de variantes personnalisées».

« ‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée de discussion que nous avons vécue avec qui fonctionne également bien sur Lmarena », a déclaré le porte-parole. «Nous avons maintenant publié notre version open source et verrons comment les développeurs personnalisent Llama 4 pour leurs propres cas d’utilisation. Nous sommes ravis de voir ce qu’ils construisent et attendront avec impatience leurs commentaires.

Source link

What's Hot

SoftBank annonce qu’elle investira jusqu’à 75 milliards d’euros pour construire des centres de données français

Les deux plus grands films du week-end ont tous deux été réalisés par des YouTubeurs

SoftBank prévoit d’investir jusqu’à 75 milliards d’euros dans un centre français d’IA

Meta’s Vanilla Maverick AI Model se classe en dessous des concurrents sur le benchmark de chat populaire

SoftBank annonce qu’elle investira jusqu’à 75 milliards d’euros pour construire des centres de données français

Les deux plus grands films du week-end ont tous deux été réalisés par des YouTubeurs

Les anciens de Snap dévoilent le fonds Ghost Angels

« Quelle blague » : la nouvelle facturation basée sur des jetons de Github Copilot suscite la consternation parmi les développeurs

La couche infrastructure sera le véritable champ de bataille du futur système financier

Le co-fondateur de PB Fintech vend des actions d’une valeur de 665 £

5 startups fintech indiennes qui ont retenu notre attention en mai

Top Insights

SoftBank annonce qu’elle investira jusqu’à 75 milliards d’euros pour construire des centres de données français

Les deux plus grands films du week-end ont tous deux été réalisés par des YouTubeurs

SoftBank prévoit d’investir jusqu’à 75 milliards d’euros dans un centre français d’IA

What's Hot

Meta’s Vanilla Maverick AI Model se classe en dessous des concurrents sur le benchmark de chat populaire

Related Posts

Subscribe to Updates