Dans un AG neuf et difficile.

L’Arc Prize Foundation, un organisme à but non lucratif cofondé par le chercheur de l’IA, François Chollet, a annoncé lundi dans un article de blog qu’il avait créé un nouveau test difficile pour mesurer l’intelligence générale des principaux modèles d’IA.

Jusqu’à présent, le nouveau test, appelé ARC-AGI-2, a perplexe la plupart des modèles.

Les modèles d’IA « Raisonnement » comme O1-Pro d’Openai et le score R1 de Deepseek entre 1% et 1,3% sur ARC-AGI-2, selon le classement du prix ARC. De puissants modèles non relevés, notamment GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash Score, élaborez 1%.

Les tests ARC-AGI sont constitués de problèmes de type puzzle où une IA doit identifier les modèles visuels à partir d’une collection de carrés différents et générer la grille de «réponse» correcte. Les problèmes que nous avons conçus pour forcer une IA à s’adapter à de nouveaux problèmes qu’il a déjà été.

L’Arc Prize Foundation comptait plus de 400 personnes prenant ARC-AGI-2 pour établir une base de référence humaine. En moyenne, les «panneaux» de ces personnes ont obtenu 60% de la question du test – bien mieux que les scores des modèles.

Un exemple de question d’ARC-AGI-2 (Crédit: prix ARC).

Dans un article sur X, Chollet a affirmé qu’Arc-AGI-2 est une meilleure mesure de l’intelligence réelle d’un modèle d’IA que la première itération du test, ARC-AGI-1. Les tests de la Fondation des prix Arc sont aimés pour évaluer où un système AI A IA peut acquérir efficacement de nouvelles compétences en dehors des données sur lesquelles elle a été formée.

Chollet a déclaré que contrairement à Arc-AGI-1, le nouveau test empêche les modèles d’IA de s’appuyer sur des solutions de puissance de calcul de la puissance de calcul « de force brute ». Chollet a précédemment reconnu qu’il s’agissait d’un défaut majeur d’Arc-Agi-1.

Pour aborder les défauts du premier test, Arc-AGI-2 présente une nouvelle métrique: l’efficacité. Il nécessite également des modèles pour interpréter les modèles à la volée au lieu de compter sur la mémorisation.

«L’intelligence n’est pas uniquement définie par la capacité de résoudre des problèmes ou d’atteindre des scores élevés», a écrit le co-fondateur de la Fondation ARC Prize, Greg Kamradt, dans un article de blog. « L’efficacité avec ce qui est capable d’acquérir et de déploier et de déployer est un composant crucial et déterminant. La question principale posée n’est pas seulement » peut avoir acquis (la) compétence pour résoudre une tâche? » Mais aussi, « à quelle efficacité ou quelle coût? » «

ARC-AGI-1 a été invaincu pendant environ cinq ans jusqu’en 2024, lorsque OpenAI a publié son modèle de raisonnement avancé, O3, qui a surpassé tous les autres modèles d’IA et apparié les performances humaines sur l’évaluation. Cependant, comme nous l’avons noté à l’époque, les performances d’O3 gagnent sur la came Arc-Agi-1 avec un prix élevé.

La version de l’O3 Model-O3 d’OpenAI (bas) – c’était la première à atteindre de nouveaux sommets sur arc-agni-1, marquant 75,7% au test, a obtenu un maigre 4% sur ARC-AGN-2 en utilisant 200 $ de puissance de calcul par tâche.

Comparaison des performances du modèle AI Frontier sur ARC-AGI-1 et ARC-AGI-2 (Crédit: prix ARC).

L’arrivée d’Arc-AGI-2 survient, car beaucoup dans l’industrie de la technologie appellent de nouveaux repères insaturés pour mesurer les progrès de l’IA. Thomas Wolf, co-fondateur de Hugging Face, a récemment déclaré à TechCrunch que l’industrie de l’IA n’avait pas suffisamment de tests pour mesurer les traits clés de l’intelligence dite de l’intelligence générale artificielle, comprenait la créativité.

Parallèlement à la nouvelle référence, l’Arc Prize Foundation a annoncé un nouveau concours ARC Prize 2025, mettant les développeurs au défi d’atteindre une précision de 85% sur le test ARC-AGI-2 tout en ne dépensant que 0,42 $ par tâche.

Source link

What's Hot

Flipkart, soutenu par Walmart, étend sa campagne de commerce rapide alors qu’Amazon se développe en Inde

Stratégies de test de code pour les fondateurs et les startups

Superhuman acquiert la startup de détection d’IA GPTZero

Dans un AG neuf et difficile.

Flipkart, soutenu par Walmart, étend sa campagne de commerce rapide alors qu’Amazon se développe en Inde

Stratégies de test de code pour les fondateurs et les startups

Superhuman acquiert la startup de détection d’IA GPTZero

Après avoir parié sur Anthropic, Menlo Ventures lève un fonds victorieux de 3 milliards de dollars

Le partenaire Fintech devient Quill Bank

Ce que l’investissement de 900 millions de dollars de Meta dans CRED signifie pour l’écosystème fintech indien

Turtlemint Fintech Solutions IPO Day 2 : taux de souscription d’actions de 51 %, vérifiez les derniers GMP et autres détails | Marché

Top Insights

Flipkart, soutenu par Walmart, étend sa campagne de commerce rapide alors qu’Amazon se développe en Inde

Stratégies de test de code pour les fondateurs et les startups

Superhuman acquiert la startup de détection d’IA GPTZero

What's Hot

Dans un AG neuf et difficile.

Related Posts

Subscribe to Updates