Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

SATS est le plus grand alpiniste des années 500 en Asie du Sud-Est grâce à la résurgence des voyages en avion et à l’acquisition de WFS

juin 20, 2025

Le fondateur de Robinhood qui pourrait simplement révolutionner l’énergie, s’il réussit

juin 19, 2025

Le fouet de travail démissionne des coupes de bien-être britanniques prévues

juin 19, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Dans un AG neuf et difficile.
Startups

Dans un AG neuf et difficile.

JohnBy Johnmars 25, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


L’Arc Prize Foundation, un organisme à but non lucratif cofondé par le chercheur de l’IA, François Chollet, a annoncé lundi dans un article de blog qu’il avait créé un nouveau test difficile pour mesurer l’intelligence générale des principaux modèles d’IA.

Jusqu’à présent, le nouveau test, appelé ARC-AGI-2, a perplexe la plupart des modèles.

Les modèles d’IA « Raisonnement » comme O1-Pro d’Openai et le score R1 de Deepseek entre 1% et 1,3% sur ARC-AGI-2, selon le classement du prix ARC. De puissants modèles non relevés, notamment GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash Score, élaborez 1%.

Les tests ARC-AGI sont constitués de problèmes de type puzzle où une IA doit identifier les modèles visuels à partir d’une collection de carrés différents et générer la grille de «réponse» correcte. Les problèmes que nous avons conçus pour forcer une IA à s’adapter à de nouveaux problèmes qu’il a déjà été.

L’Arc Prize Foundation comptait plus de 400 personnes prenant ARC-AGI-2 pour établir une base de référence humaine. En moyenne, les «panneaux» de ces personnes ont obtenu 60% de la question du test – bien mieux que les scores des modèles.

Un exemple de question d’ARC-AGI-2 (Crédit: prix ARC).

Dans un article sur X, Chollet a affirmé qu’Arc-AGI-2 est une meilleure mesure de l’intelligence réelle d’un modèle d’IA que la première itération du test, ARC-AGI-1. Les tests de la Fondation des prix Arc sont aimés pour évaluer où un système AI A IA peut acquérir efficacement de nouvelles compétences en dehors des données sur lesquelles elle a été formée.

Chollet a déclaré que contrairement à Arc-AGI-1, le nouveau test empêche les modèles d’IA de s’appuyer sur des solutions de puissance de calcul de la puissance de calcul « de force brute ». Chollet a précédemment reconnu qu’il s’agissait d’un défaut majeur d’Arc-Agi-1.

Pour aborder les défauts du premier test, Arc-AGI-2 présente une nouvelle métrique: l’efficacité. Il nécessite également des modèles pour interpréter les modèles à la volée au lieu de compter sur la mémorisation.

«L’intelligence n’est pas uniquement définie par la capacité de résoudre des problèmes ou d’atteindre des scores élevés», a écrit le co-fondateur de la Fondation ARC Prize, Greg Kamradt, dans un article de blog. « L’efficacité avec ce qui est capable d’acquérir et de déploier et de déployer est un composant crucial et déterminant. La question principale posée n’est pas seulement » peut avoir acquis (la) compétence pour résoudre une tâche?  » Mais aussi, « à quelle efficacité ou quelle coût? » « 

ARC-AGI-1 a été invaincu pendant environ cinq ans jusqu’en 2024, lorsque OpenAI a publié son modèle de raisonnement avancé, O3, qui a surpassé tous les autres modèles d’IA et apparié les performances humaines sur l’évaluation. Cependant, comme nous l’avons noté à l’époque, les performances d’O3 gagnent sur la came Arc-Agi-1 avec un prix élevé.

La version de l’O3 Model-O3 d’OpenAI (bas) – c’était la première à atteindre de nouveaux sommets sur arc-agni-1, marquant 75,7% au test, a obtenu un maigre 4% sur ARC-AGN-2 en utilisant 200 $ de puissance de calcul par tâche.

Comparaison des performances du modèle AI Frontier sur ARC-AGI-1 et ARC-AGI-2 (Crédit: prix ARC).

L’arrivée d’Arc-AGI-2 survient, car beaucoup dans l’industrie de la technologie appellent de nouveaux repères insaturés pour mesurer les progrès de l’IA. Thomas Wolf, co-fondateur de Hugging Face, a récemment déclaré à TechCrunch que l’industrie de l’IA n’avait pas suffisamment de tests pour mesurer les traits clés de l’intelligence dite de l’intelligence générale artificielle, comprenait la créativité.

Parallèlement à la nouvelle référence, l’Arc Prize Foundation a annoncé un nouveau concours ARC Prize 2025, mettant les développeurs au défi d’atteindre une précision de 85% sur le test ARC-AGI-2 tout en ne dépensant que 0,42 $ par tâche.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleMeghan Markle a lancé une boutique en ligne mettant en vedette ses importantes pièces de mode
Next Article Play illimité: Aímer annonce la collection 2025SS à la Fashion Week de China
John
  • Website

Related Posts

Le fondateur de Robinhood qui pourrait simplement révolutionner l’énergie, s’il réussit

juin 19, 2025

Chaque startup de fusion qui a recueilli plus de 100 millions de dollars

juin 19, 2025

Le programme de stage des constructeurs de perturbation 2025 en direct et en prenant forme

juin 19, 2025

Cathy Gao apporte le vrai livre de jeu à TC All Stage

juin 19, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

L’IA Challenge Technode relie les talents fintech au premier plan de la finance

juin 19, 2025

Fichier de connexion IPO Micro Connection de la plate-forme fintech du PDG de l’ancien PDG HK

juin 19, 2025

Trust + mise à niveau avec des plafonds d’intérêt plus élevés et de nouveaux avantages

juin 19, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

SATS est le plus grand alpiniste des années 500 en Asie du Sud-Est grâce à la résurgence des voyages en avion et à l’acquisition de WFS

juin 20, 2025

Le fondateur de Robinhood qui pourrait simplement révolutionner l’énergie, s’il réussit

juin 19, 2025

Le fouet de travail démissionne des coupes de bien-être britanniques prévues

juin 19, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.