Dans un AG neuf et difficile.

L’Arc Prize Foundation, un organisme à but non lucratif cofondé par le chercheur de l’IA, François Chollet, a annoncé lundi dans un article de blog qu’il avait créé un nouveau test difficile pour mesurer l’intelligence générale des principaux modèles d’IA.

Jusqu’à présent, le nouveau test, appelé ARC-AGI-2, a perplexe la plupart des modèles.

Les modèles d’IA « Raisonnement » comme O1-Pro d’Openai et le score R1 de Deepseek entre 1% et 1,3% sur ARC-AGI-2, selon le classement du prix ARC. De puissants modèles non relevés, notamment GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash Score, élaborez 1%.

Les tests ARC-AGI sont constitués de problèmes de type puzzle où une IA doit identifier les modèles visuels à partir d’une collection de carrés différents et générer la grille de «réponse» correcte. Les problèmes que nous avons conçus pour forcer une IA à s’adapter à de nouveaux problèmes qu’il a déjà été.

L’Arc Prize Foundation comptait plus de 400 personnes prenant ARC-AGI-2 pour établir une base de référence humaine. En moyenne, les «panneaux» de ces personnes ont obtenu 60% de la question du test – bien mieux que les scores des modèles.

Un exemple de question d’ARC-AGI-2 (Crédit: prix ARC).

Dans un article sur X, Chollet a affirmé qu’Arc-AGI-2 est une meilleure mesure de l’intelligence réelle d’un modèle d’IA que la première itération du test, ARC-AGI-1. Les tests de la Fondation des prix Arc sont aimés pour évaluer où un système AI A IA peut acquérir efficacement de nouvelles compétences en dehors des données sur lesquelles elle a été formée.

Chollet a déclaré que contrairement à Arc-AGI-1, le nouveau test empêche les modèles d’IA de s’appuyer sur des solutions de puissance de calcul de la puissance de calcul « de force brute ». Chollet a précédemment reconnu qu’il s’agissait d’un défaut majeur d’Arc-Agi-1.

Pour aborder les défauts du premier test, Arc-AGI-2 présente une nouvelle métrique: l’efficacité. Il nécessite également des modèles pour interpréter les modèles à la volée au lieu de compter sur la mémorisation.

«L’intelligence n’est pas uniquement définie par la capacité de résoudre des problèmes ou d’atteindre des scores élevés», a écrit le co-fondateur de la Fondation ARC Prize, Greg Kamradt, dans un article de blog. « L’efficacité avec ce qui est capable d’acquérir et de déploier et de déployer est un composant crucial et déterminant. La question principale posée n’est pas seulement » peut avoir acquis (la) compétence pour résoudre une tâche? » Mais aussi, « à quelle efficacité ou quelle coût? » «

ARC-AGI-1 a été invaincu pendant environ cinq ans jusqu’en 2024, lorsque OpenAI a publié son modèle de raisonnement avancé, O3, qui a surpassé tous les autres modèles d’IA et apparié les performances humaines sur l’évaluation. Cependant, comme nous l’avons noté à l’époque, les performances d’O3 gagnent sur la came Arc-Agi-1 avec un prix élevé.

La version de l’O3 Model-O3 d’OpenAI (bas) – c’était la première à atteindre de nouveaux sommets sur arc-agni-1, marquant 75,7% au test, a obtenu un maigre 4% sur ARC-AGN-2 en utilisant 200 $ de puissance de calcul par tâche.

Comparaison des performances du modèle AI Frontier sur ARC-AGI-1 et ARC-AGI-2 (Crédit: prix ARC).

L’arrivée d’Arc-AGI-2 survient, car beaucoup dans l’industrie de la technologie appellent de nouveaux repères insaturés pour mesurer les progrès de l’IA. Thomas Wolf, co-fondateur de Hugging Face, a récemment déclaré à TechCrunch que l’industrie de l’IA n’avait pas suffisamment de tests pour mesurer les traits clés de l’intelligence dite de l’intelligence générale artificielle, comprenait la créativité.

Parallèlement à la nouvelle référence, l’Arc Prize Foundation a annoncé un nouveau concours ARC Prize 2025, mettant les développeurs au défi d’atteindre une précision de 85% sur le test ARC-AGI-2 tout en ne dépensant que 0,42 $ par tâche.

Source link

What's Hot

SATS est le plus grand alpiniste des années 500 en Asie du Sud-Est grâce à la résurgence des voyages en avion et à l’acquisition de WFS

Le fondateur de Robinhood qui pourrait simplement révolutionner l’énergie, s’il réussit

Le fouet de travail démissionne des coupes de bien-être britanniques prévues

Dans un AG neuf et difficile.

Le fondateur de Robinhood qui pourrait simplement révolutionner l’énergie, s’il réussit

Chaque startup de fusion qui a recueilli plus de 100 millions de dollars

Le programme de stage des constructeurs de perturbation 2025 en direct et en prenant forme

Cathy Gao apporte le vrai livre de jeu à TC All Stage

L’IA Challenge Technode relie les talents fintech au premier plan de la finance

Fichier de connexion IPO Micro Connection de la plate-forme fintech du PDG de l’ancien PDG HK

Trust + mise à niveau avec des plafonds d’intérêt plus élevés et de nouveaux avantages

Top Insights

SATS est le plus grand alpiniste des années 500 en Asie du Sud-Est grâce à la résurgence des voyages en avion et à l’acquisition de WFS

Le fondateur de Robinhood qui pourrait simplement révolutionner l’énergie, s’il réussit

Le fouet de travail démissionne des coupes de bien-être britanniques prévues

What's Hot

Dans un AG neuf et difficile.

Related Posts

Subscribe to Updates