L’Arc Prize Foundation, un organisme à but non lucratif cofondé par le chercheur de l’IA, François Chollet, a annoncé lundi dans un article de blog qu’il avait créé un nouveau test difficile pour mesurer l’intelligence générale des principaux modèles d’IA.
Jusqu’à présent, le nouveau test, appelé ARC-AGI-2, a perplexe la plupart des modèles.
Les modèles d’IA « Raisonnement » comme O1-Pro d’Openai et le score R1 de Deepseek entre 1% et 1,3% sur ARC-AGI-2, selon le classement du prix ARC. De puissants modèles non relevés, notamment GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash Score, élaborez 1%.
Les tests ARC-AGI sont constitués de problèmes de type puzzle où une IA doit identifier les modèles visuels à partir d’une collection de carrés différents et générer la grille de «réponse» correcte. Les problèmes que nous avons conçus pour forcer une IA à s’adapter à de nouveaux problèmes qu’il a déjà été.
L’Arc Prize Foundation comptait plus de 400 personnes prenant ARC-AGI-2 pour établir une base de référence humaine. En moyenne, les «panneaux» de ces personnes ont obtenu 60% de la question du test – bien mieux que les scores des modèles.

Dans un article sur X, Chollet a affirmé qu’Arc-AGI-2 est une meilleure mesure de l’intelligence réelle d’un modèle d’IA que la première itération du test, ARC-AGI-1. Les tests de la Fondation des prix Arc sont aimés pour évaluer où un système AI A IA peut acquérir efficacement de nouvelles compétences en dehors des données sur lesquelles elle a été formée.
Chollet a déclaré que contrairement à Arc-AGI-1, le nouveau test empêche les modèles d’IA de s’appuyer sur des solutions de puissance de calcul de la puissance de calcul « de force brute ». Chollet a précédemment reconnu qu’il s’agissait d’un défaut majeur d’Arc-Agi-1.
Pour aborder les défauts du premier test, Arc-AGI-2 présente une nouvelle métrique: l’efficacité. Il nécessite également des modèles pour interpréter les modèles à la volée au lieu de compter sur la mémorisation.
«L’intelligence n’est pas uniquement définie par la capacité de résoudre des problèmes ou d’atteindre des scores élevés», a écrit le co-fondateur de la Fondation ARC Prize, Greg Kamradt, dans un article de blog. « L’efficacité avec ce qui est capable d’acquérir et de déploier et de déployer est un composant crucial et déterminant. La question principale posée n’est pas seulement » peut avoir acquis (la) compétence pour résoudre une tâche? » Mais aussi, « à quelle efficacité ou quelle coût? » «
ARC-AGI-1 a été invaincu pendant environ cinq ans jusqu’en 2024, lorsque OpenAI a publié son modèle de raisonnement avancé, O3, qui a surpassé tous les autres modèles d’IA et apparié les performances humaines sur l’évaluation. Cependant, comme nous l’avons noté à l’époque, les performances d’O3 gagnent sur la came Arc-Agi-1 avec un prix élevé.
La version de l’O3 Model-O3 d’OpenAI (bas) – c’était la première à atteindre de nouveaux sommets sur arc-agni-1, marquant 75,7% au test, a obtenu un maigre 4% sur ARC-AGN-2 en utilisant 200 $ de puissance de calcul par tâche.

L’arrivée d’Arc-AGI-2 survient, car beaucoup dans l’industrie de la technologie appellent de nouveaux repères insaturés pour mesurer les progrès de l’IA. Thomas Wolf, co-fondateur de Hugging Face, a récemment déclaré à TechCrunch que l’industrie de l’IA n’avait pas suffisamment de tests pour mesurer les traits clés de l’intelligence dite de l’intelligence générale artificielle, comprenait la créativité.
Parallèlement à la nouvelle référence, l’Arc Prize Foundation a annoncé un nouveau concours ARC Prize 2025, mettant les développeurs au défi d’atteindre une précision de 85% sur le test ARC-AGI-2 tout en ne dépensant que 0,42 $ par tâche.