Les repères de Meta pour ses nouveaux modèles d'IA sont un peu trompeurs

L’un des nouveaux modèles phares AI Meta publiés samedi, Maverick, se classe deuxième sur LM Arena, un test qui a des évaluateurs humains comparer les résultats des modèles et choisir ce qu’ils préfèrent. Mais il semble que la version de Maverick que Meta déployée sur LM Arena diffère de la version largement disponible pour les développeurs.

Comme plusieurs chercheurs d’IA l’ont souligné sur X, Meta-Neda dans son annonce que le Maverick sur LM Arena est une «version de chat expérimentale». Un graphique sur le site officiel de Llama, quant à lui, révèle que les tests LM Arena de META effectuaient en utilisant «Llama 4 Maverick optimisé pour la conversation».

Comme nous sommes écrits auparavant, pour diverses raisons, LM Arena n’a jamais été la mesure la plus ravissante des performances d’un modèle d’IA. Mais les sociétés d’IA n’ont généralement pas personnalisé ou affiné leurs modèles pour marquer Beter sur LM Arena ou n’ont pas admis de le faire, au moins.

Le problème de l’adaptation d’un modèle à une référence, de la retenir, puis de la libération d’une variante «vanille» de ce même modèle est qu’il est difficile pour les développeurs de prédire à quel point le modèle fonctionnera dans des contextes particuliers. C’est aussi trompeur. Idéalement, les références – terriblement inadéquates comme elles sont – fournissent un instantané des forces et des faiblesses d’un seul modèle à travers une rage de tâches.

En effet, les chercheurs sur X ont observé des difficultés stark dans le comportement du Maverick téléchargeable public par rapport au modèle hébergé sur LM Arena. La version LM Arena semble utiliser beaucoup d’emojis et donner des réponses incroyablement longues.

Oks llama 4 est def un coked Lold Lol, qu’est-ce que ce yap ville pic.twitter.com/y3gvhbvz65

– Nathan Lambert (@natolambert) 6 avril 2025

Pour une raison quelconque, le modèle Llama 4 dans Arena utilise beaucoup plus d’emojis

Sur ensemble. AI, cela semble mieux: pic.twitter.com/f74odx4ztt

– Tech Dev Notes (@TechDevnotes) 6 avril 2025

Nous avons contacté Meta et Chatbot Arena, l’organisation qui Maintenance LM Arena, pour commenter.

Source link

What's Hot

Il a assuré le bon fonctionnement de votre lecteur vidéo gratuit. Maintenant, il fait ça pour les robots.

Chiffrement, logiciels espions et maintenant mythes : l’histoire montre pourquoi le contrôle des cyberexportations ne fonctionne pas

Allez voir les robotaxis et les acquisitions après la plus grande introduction en bourse au Japon en 2026. Voici pourquoi c’est important

Les repères de Meta pour ses nouveaux modèles d’IA sont un peu trompeurs

Il a assuré le bon fonctionnement de votre lecteur vidéo gratuit. Maintenant, il fait ça pour les robots.

Chiffrement, logiciels espions et maintenant mythes : l’histoire montre pourquoi le contrôle des cyberexportations ne fonctionne pas

Allez voir les robotaxis et les acquisitions après la plus grande introduction en bourse au Japon en 2026. Voici pourquoi c’est important

L’impressionnant cadre photo à encre électronique d’Aura n’a même pas l’air numérique

L’introduction en bourse GMP d’aujourd’hui : l’abonnement à l’introduction en bourse de Turtlemint Fintech commence. Fourchette de prix, avis, etc.

Le partenaire Puey Quinones de FinTech Alliance PH lance la collection Modern Filipiniana pour l’Asean Tech Summit Manille 2026

Le partenaire Puey Quinones de FinTech Alliance PH lance la collection Modern Filipiniana pour l’Asean Tech Summit Manille 2026

Top Insights

Il a assuré le bon fonctionnement de votre lecteur vidéo gratuit. Maintenant, il fait ça pour les robots.

Chiffrement, logiciels espions et maintenant mythes : l’histoire montre pourquoi le contrôle des cyberexportations ne fonctionne pas

Allez voir les robotaxis et les acquisitions après la plus grande introduction en bourse au Japon en 2026. Voici pourquoi c’est important

What's Hot

Les repères de Meta pour ses nouveaux modèles d’IA sont un peu trompeurs

Related Posts

Subscribe to Updates