Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Une fois ses données essuyées, le co-fondateur de Kiranapro ne peut pas exclure un piratage externe

juin 7, 2025

Rencontrez les finalistes: les 5 startups les plus visionnaires de Vivatech de 2025

juin 7, 2025

L’Oréal considère la Chine et l’Asie du Sud-Est comme le prochain moteur de croissance lorsque la Chine ralentit: « La démographie doit gagner à la fin. »

juin 7, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Ces redéarchers ont utilisé des questions de puzzle du dimanche NPR pour comparer les modèles de «raisonnement» AI
Startups

Ces redéarchers ont utilisé des questions de puzzle du dimanche NPR pour comparer les modèles de «raisonnement» AI

JohnBy Johnfévrier 6, 2025Aucun commentaire5 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Chaque jour, l’hôte de NPR Will Shortz, le gourou des mots croisés du New York Times, arrive à interroger des milliers d’auditeurs dans un segment de longue date appelé The Sunday Puzzle. Bien qu’ils soient écrits pour être résolubles sans trop la connaissance de l’attention, les Brentinasers sont généralement difficiles même pour les concours.

C’est pourquoi certains experts pensent qu’ils sont des moyens prometteurs de tester les limites d’une «reprise de résolution de problèmes».

Dans une nouvelle étude, une équipe de chercheurs originaire du Wellesley College, du Oberlin College, de l’Université du Texas à Austin, de l’Université du Nord-Est et de Startup Cursor a créé une référence AI utilisant des énigmes des épisodes de puzzle du dimanche. L’équipe dit que son test révèle des idées surprenantes, comme ce soi-disant modélisation de raisonnement – O1 d’Openai, entre autres, «abandonnent» et fournissent des réponses qu’ils ne savent pas.

«Nous voulions développer une référence avec des problèmes que les humains peuvent comprendre avec uniquement des connaissances générales», a déclaré à TechCrunch, à Arjun Guha, un premier cycle en informatique à Northeastern et l’un des co-auteurs de l’étude.

L’industrie de l’IA est dans un peu de comparaison quand Ary en ce moment. La plupart des tests couramment utilisés pour évaluer la sonde des modèles d’IA pour les compétences, comme la compétence sur les questions de mathématiques et de sciences au niveau du doctorat, qui ne reviennent pas à l’utilisateur moyen. Pendant ce temps, de nombreux repères – même des repères libérés relativement récemment – approchent rapidement du point de saturation.

Les avantages d’un jeu de quiz de radio public comme The Sunday Puzzle est qu’il ne teste pas les connaissances ésotériques, et les défis sont formulés de telle sorte que les modèles ne peuvent pas s’appuyer sur la «mémoire par cœur» pour les résoudre, a expliqué Guha.

« Je pense que ce qui fait ces problèmes difficiles, c’est qu’il est vraiment difficile de faire des progrès significatifs sur un problème qui vous résout – c’est alors que les clics ensemble en une seule fois », a déclaré Guha. «Cela nécessite une combinaison de perspicacité et un processus d’élimination.»

Aucune référence n’est parfaite, de race. Le puzzle du dimanche est centré sur les États-Unis et en anglais uniquement. Et parce que les quiz sont accessibles au public, il est possible que des modèles soient formés sur eux et puissent «tricher» dans un sens, bien que Guha dit qu’il en ait été preuve.

« De nouvelles questions sont publiées chaque semaine, et nous pouvons accrocher les dernières questions à être vraiment invisible », a-t-il ajouté. «Nous avons entendu que le référence fraîche et suivre comment les performances du modèle changent dans le temps.»

Sur la référence des chercheurs, qui comprend environ 600 énigmes de puzzle du dimanche, des modèles de raisonnement tels que O1 et R1 de Deepseek surpassent le reste. Le raisonnement des modèles se vérifiez soigneusement avant de donner des résultats, ce qui les aide à éviter certains des pièges qui décrochent normalement des modèles d’IA. Le compromis est que les modèles de raisonnement mettent un peu pour arriver à des solutions – les secondes à quelques minutes changent.

Au moins un modèle, le R1 de Deepseek, donne des solutions qu’il sait mal pour certaines des questions du puzzle du dimanche. R1 indiquera que «j’abandonne», suivi d’une réponse incorrecte choisie apparemment au hasard – un comportement auquel l’homme peut certainement se rapporter.

Les fabricants font d’autres choix bizarres, comme donner une mauvaise réponse uniquement pour le rétracter immédiatement, tenter de les enlever un meilleur et d’échouer à nouveau. Ils sont également coincés pour «penser» pour toujours et donnent des explications absurdes pour des réponses, ou ils arrivent immédiatement à une bonne réponse, mais continuent à considérer des réponses alternatives sans raison évidente.

« Sur les problèmes difficiles, R1 dit littéralement que cela devient » frustré «  », a déclaré Guha. «C’était drôle de voir comment un modèle émule ce qu’un humain pourrait dire. Il reste à voir comment la «frustration» dans le raisonnement peut affecter la qualité des résultats du modèle. « 

Benchmark NPR
R1 devenant «frustré», nous avons une question dans l’ensemble du Sunday Puzzle Challenge.Image des crédits: Guha et al.

Le modèle le plus performant actuel sur la référence est O1 avec un score de 59%, suivi de l’O3-Mini récemment publié sur un «effort de raisonnement» élevé (47%). (R1 a obtenu 35%.) Dans une prochaine étape, les chercheurs prévoient d’élargir leurs tests vers des modèles de raisonnement supplémentaires, qui, ils espèrent, aideront à identifier les domaines où ces modèles pourraient être améliorés.

Benchmark NPR
Les scores des modèles que l’équipe teste sur leur référence.Image des crédits: Guha et al.

« Vous n’avez pas besoin d’un doctorat pour être bon pour le raisonnement, il devrait donc être possible de concevoir des repères de raisonnement dont vous avez besoin de connaissances doctorales », a déclaré Guha. «Une référence avec un accès plus large permet à un ensemble de chercheurs plus large de comprendre et d’analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l’avenir. En outre, comme les modèles de pointe sont de plus en plus déployés dans des décors qui affectent tout le monde, nous pensons que tout le monde devrait être en mesure d’intuiner ce que ces modèles sont et ne sont pas capables. « 



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLa société roumaine FinTech Pluridio étend sa présence mondiale en ouvrant une filiale au Royaume-Uni
Next Article Taylor Swift Fashion Hack Je vole en 2025
John
  • Website

Related Posts

Une fois ses données essuyées, le co-fondateur de Kiranapro ne peut pas exclure un piratage externe

juin 7, 2025

Rencontrez les finalistes: les 5 startups les plus visionnaires de Vivatech de 2025

juin 7, 2025

Trump accélére les voyages supersoniques, au milieu de la série de décrets liés aux vols

juin 6, 2025

TechCrunch Mobility: Comment Lovefrom de Jony Ive a aidé Rivian et ce que le manuel de génération UXT comme Like

juin 6, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

La startup fintech Decentro augmente 30 crore £ pour déplacer sa résidence en Inde

juin 6, 2025

FinTech et Neobanks poussent les banques à repenser l’avenir des dépôts

juin 5, 2025

FinTech et Neobanks poussent les banques à repenser l’avenir des dépôts

juin 5, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Une fois ses données essuyées, le co-fondateur de Kiranapro ne peut pas exclure un piratage externe

juin 7, 2025

Rencontrez les finalistes: les 5 startups les plus visionnaires de Vivatech de 2025

juin 7, 2025

L’Oréal considère la Chine et l’Asie du Sud-Est comme le prochain moteur de croissance lorsque la Chine ralentit: « La démographie doit gagner à la fin. »

juin 7, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.