Les repères de Meta pour ses nouveaux modèles d'IA sont un peu trompeurs

L’un des nouveaux modèles phares AI Meta publiés samedi, Maverick, se classe deuxième sur LM Arena, un test qui a des évaluateurs humains comparer les résultats des modèles et choisir ce qu’ils préfèrent. Mais il semble que la version de Maverick que Meta déployée sur LM Arena diffère de la version largement disponible pour les développeurs.

Comme plusieurs chercheurs d’IA l’ont souligné sur X, Meta-Neda dans son annonce que le Maverick sur LM Arena est une «version de chat expérimentale». Un graphique sur le site officiel de Llama, quant à lui, révèle que les tests LM Arena de META effectuaient en utilisant «Llama 4 Maverick optimisé pour la conversation».

Comme nous sommes écrits auparavant, pour diverses raisons, LM Arena n’a jamais été la mesure la plus ravissante des performances d’un modèle d’IA. Mais les sociétés d’IA n’ont généralement pas personnalisé ou affiné leurs modèles pour marquer Beter sur LM Arena ou n’ont pas admis de le faire, au moins.

Le problème de l’adaptation d’un modèle à une référence, de la retenir, puis de la libération d’une variante «vanille» de ce même modèle est qu’il est difficile pour les développeurs de prédire à quel point le modèle fonctionnera dans des contextes particuliers. C’est aussi trompeur. Idéalement, les références – terriblement inadéquates comme elles sont – fournissent un instantané des forces et des faiblesses d’un seul modèle à travers une rage de tâches.

En effet, les chercheurs sur X ont observé des difficultés stark dans le comportement du Maverick téléchargeable public par rapport au modèle hébergé sur LM Arena. La version LM Arena semble utiliser beaucoup d’emojis et donner des réponses incroyablement longues.

Oks llama 4 est def un coked Lold Lol, qu’est-ce que ce yap ville pic.twitter.com/y3gvhbvz65

– Nathan Lambert (@natolambert) 6 avril 2025

Pour une raison quelconque, le modèle Llama 4 dans Arena utilise beaucoup plus d’emojis

Sur ensemble. AI, cela semble mieux: pic.twitter.com/f74odx4ztt

– Tech Dev Notes (@TechDevnotes) 6 avril 2025

Nous avons contacté Meta et Chatbot Arena, l’organisation qui Maintenance LM Arena, pour commenter.

Source link

What's Hot

Tenzing Seldon : Le boom du GLP-1 est le plus gros problème de changement climatique auquel personne ne pense

Sam Altman affirme que l’IA dépassera l’intelligence humaine d’ici 2030. D’autres milliardaires affirment que cela pourrait être plus tôt.

Daron Acemoglu, lauréat du prix Nobel, parle du discours « sans cervelle » sur l’IA, du mythe du capitalisme et de la révolution de la génération Z

Les repères de Meta pour ses nouveaux modèles d’IA sont un peu trompeurs

Meredith Whittaker de Signal veut que vous vous souveniez que les chatbots IA « ne sont pas vos amis »

In the Weights est votre nouvelle recherche de vanité centrée sur l’IA

Le pari aberrant du Founders Fund sur les poissons tués sans cruauté

Chaque nouvelle fonctionnalité iOS 27 qui mérite d’être connue

L’introduction en bourse GMP d’aujourd’hui : l’abonnement à l’introduction en bourse de Turtlemint Fintech commence. Fourchette de prix, avis, etc.

La société fintech locale Aleta lance une carte de débit Visa sur le thème de Sanrio

La société fintech locale Aleta lance une carte de débit Visa sur le thème de Sanrio

Top Insights

Tenzing Seldon : Le boom du GLP-1 est le plus gros problème de changement climatique auquel personne ne pense

Sam Altman affirme que l’IA dépassera l’intelligence humaine d’ici 2030. D’autres milliardaires affirment que cela pourrait être plus tôt.

Daron Acemoglu, lauréat du prix Nobel, parle du discours « sans cervelle » sur l’IA, du mythe du capitalisme et de la révolution de la génération Z

What's Hot

Les repères de Meta pour ses nouveaux modèles d’IA sont un peu trompeurs

Related Posts

Subscribe to Updates