Un nouveau défi de codage de l’IA a révélé son premier gagnant et a défini une nouvelle barre pour les ingénieurs logiciels à pow.
Mercredi à 17h, PST, le Laude Institute à but non lucratif a été le premier gagnant du prix K, un défi de codage de l’IA multi-ronde lancé par le co-fondateur de Databricks et Perplexity Andy Konwinski. Le gagnant était un ingénieur invite brésilien nommé Eduardo Rocha de Andrade, qui recevra 50 000 $ pour le prix. Mais plus surprenant que la victoire a été le score final: il a gagné avec des réponses correctes à seulement 7,5% des questions sur le test.
«Nous sommes heureux que nous construisions une référence qui est en fait difficile», a déclaré Konwinski. « Les références devraient être difficiles s’ils vont dans l’importance », a-t-il poursuivi, ajoutant: « Les scores seraient différents si les grands laboratoires avaient accord avec leurs plus grands modèles. Mais que ce genre de point.
Konwinski a promis 1 million de dollars au premier modèle open-source qui peut marquer au niveau supérieur de 90% au test.
Semblable au système SWE-Bench bien connu, le prix K teste des modèles contre les problèmes signalés de GitHub comme test de la façon dont les modèles peuvent gérer les problèmes de programmation du monde réel. Mais alors que Swe-Bench est basé sur un ensemble fixe de problèmes contre lesquels les modèles peuvent s’entraîner, le prix K est conçu comme une «version sans contamination de Sweet», en utilisant un système d’entrée chronométré pour se prémunir contre toute formation sur l’espace de référence. Pour le premier tour, les modèles étaient dus le 12 mars. Les organisateurs du prix K ont ensuite construit le test en utilisant uniquement GitHub à partir de Flagged après cette date.
Le score supérieur de 7,5% est en contraste marqué avec Swe-Bench lui-même, qui montre actuellement un score supérieur de 75% sur son test «vérifié» plus facile et 34% sur son test «complet» plus dur. Konwinski ne sait toujours pas où la disparition est due à la contamination sur le pull ou tout simplement au défi de collecter de nouveaux problèmes de Github, mais il s’attend à ce que le projet du prix K réponde bientôt à la question.
« Au fur et à mesure que nous obtenons plus de courses, nous aurons un meilleur sens », a-t-il déclaré à TechCrunch, « parce que nous nous attendons à ce que les gens s’adaptent à la dynamique de la compa et de cela tous les quelques mois. »
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
Cela peut sembler un endroit étrange pour tomber, étant donné les larges gammes d’outils de codage de l’IA déjà accessibles au public – mais avec des repères devenant trop faciles, de nombreux critiques voient des projets comme le prix K comme une étape nécessaire vers la résolution d’un problème d’évaluation.
«Je suis assez optimiste de construire de nouveaux tests pour les références existantes», explique le chercheur de Princeton, Sayash Kapoor, qui a proposé une idée similaire dans un article récent. « Sans une telle expérience, nous ne pouvons pas réellement dire si le résultat est la contamination, ou même simplement cibler le classement Sweetole avec un humain dans la boucle. »
Pour Konwinski, ce n’est pas seulement une meilleure référence, mais un défi ouvert pour le reste de l’industrie. « Si vous avez écouté le battage médiatique, c’est comme si nous devrions voir les médecins de l’IA et les avocats de l’IA et les ingénieurs logiciels de l’IA, et ce n’est tout simplement pas vrai », dit-il. « Si nous ne pouvons même pas obtenir plus de 10%, nous contamination gratuitement, c’est le contrôle de la réalité pour moi. »