Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Les régulateurs s’inscrivent à Mega pour 8 milliards de dollars de fusion Paramount avec Skydance

juillet 25, 2025

Comment l’application de livraison alimentaire AY Combinator a utilisé Tiktok pour monter dans l’App Store

juillet 24, 2025

VC Victor Lazarte laisse Benchmark pour lancer sa propre entreprise

juillet 24, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Un nouveau défi de codage AI vient de publier ses premiers résultats – et ils sont jolis
Startups

Un nouveau défi de codage AI vient de publier ses premiers résultats – et ils sont jolis

JohnBy Johnjuillet 24, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Un nouveau défi de codage de l’IA a révélé son premier gagnant et a défini une nouvelle barre pour les ingénieurs logiciels à pow.

Mercredi à 17h, PST, le Laude Institute à but non lucratif a été le premier gagnant du prix K, un défi de codage de l’IA multi-ronde lancé par le co-fondateur de Databricks et Perplexity Andy Konwinski. Le gagnant était un ingénieur invite brésilien nommé Eduardo Rocha de Andrade, qui recevra 50 000 $ pour le prix. Mais plus surprenant que la victoire a été le score final: il a gagné avec des réponses correctes à seulement 7,5% des questions sur le test.

«Nous sommes heureux que nous construisions une référence qui est en fait difficile», a déclaré Konwinski. « Les références devraient être difficiles s’ils vont dans l’importance », a-t-il poursuivi, ajoutant: « Les scores seraient différents si les grands laboratoires avaient accord avec leurs plus grands modèles. Mais que ce genre de point.

Konwinski a promis 1 million de dollars au premier modèle open-source qui peut marquer au niveau supérieur de 90% au test.

Semblable au système SWE-Bench bien connu, le prix K teste des modèles contre les problèmes signalés de GitHub comme test de la façon dont les modèles peuvent gérer les problèmes de programmation du monde réel. Mais alors que Swe-Bench est basé sur un ensemble fixe de problèmes contre lesquels les modèles peuvent s’entraîner, le prix K est conçu comme une «version sans contamination de Sweet», en utilisant un système d’entrée chronométré pour se prémunir contre toute formation sur l’espace de référence. Pour le premier tour, les modèles étaient dus le 12 mars. Les organisateurs du prix K ont ensuite construit le test en utilisant uniquement GitHub à partir de Flagged après cette date.

Le score supérieur de 7,5% est en contraste marqué avec Swe-Bench lui-même, qui montre actuellement un score supérieur de 75% sur son test «vérifié» plus facile et 34% sur son test «complet» plus dur. Konwinski ne sait toujours pas où la disparition est due à la contamination sur le pull ou tout simplement au défi de collecter de nouveaux problèmes de Github, mais il s’attend à ce que le projet du prix K réponde bientôt à la question.

« Au fur et à mesure que nous obtenons plus de courses, nous aurons un meilleur sens », a-t-il déclaré à TechCrunch, « parce que nous nous attendons à ce que les gens s’adaptent à la dynamique de la compa et de cela tous les quelques mois. »

Événement TechCrunch

San Francisco
|
27-29 octobre 2025

Cela peut sembler un endroit étrange pour tomber, étant donné les larges gammes d’outils de codage de l’IA déjà accessibles au public – mais avec des repères devenant trop faciles, de nombreux critiques voient des projets comme le prix K comme une étape nécessaire vers la résolution d’un problème d’évaluation.

«Je suis assez optimiste de construire de nouveaux tests pour les références existantes», explique le chercheur de Princeton, Sayash Kapoor, qui a proposé une idée similaire dans un article récent. « Sans une telle expérience, nous ne pouvons pas réellement dire si le résultat est la contamination, ou même simplement cibler le classement Sweetole avec un humain dans la boucle. »

Pour Konwinski, ce n’est pas seulement une meilleure référence, mais un défi ouvert pour le reste de l’industrie. « Si vous avez écouté le battage médiatique, c’est comme si nous devrions voir les médecins de l’IA et les avocats de l’IA et les ingénieurs logiciels de l’IA, et ce n’est tout simplement pas vrai », dit-il. « Si nous ne pouvons même pas obtenir plus de 10%, nous contamination gratuitement, c’est le contrôle de la réalité pour moi. »



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLa rupture de Prince George du style de vie « structuré » a une passion pour continuer à le « fonder »
Next Article Elon Musk veut plus de contrôle sur Tesla, donc les investisseurs militants ne peuvent pas le poursuivre, mais il ne peut pas le licencier s’il devient « fou ».
John
  • Website

Related Posts

Comment l’application de livraison alimentaire AY Combinator a utilisé Tiktok pour monter dans l’App Store

juillet 24, 2025

VC Victor Lazarte laisse Benchmark pour lancer sa propre entreprise

juillet 24, 2025

Intel continue de faire du pull sur ses projets de fabrication

juillet 24, 2025

X pour tester en utilisant des notes de communauté pour trouver les articles que tout le monde aime

juillet 24, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

PalmPay tient la place parmi les 300 meilleures sociétés fintech au monde

juillet 24, 2025

Tazapay 2025 nommé la liste des meilleures sociétés de fintech du CNBC – Theprint – AnipressReleases

juillet 24, 2025

Comment les ingénieurs indiens aident à transformer cette fintech mondiale

juillet 23, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Les régulateurs s’inscrivent à Mega pour 8 milliards de dollars de fusion Paramount avec Skydance

juillet 25, 2025

Comment l’application de livraison alimentaire AY Combinator a utilisé Tiktok pour monter dans l’App Store

juillet 24, 2025

VC Victor Lazarte laisse Benchmark pour lancer sa propre entreprise

juillet 24, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.