Un parieur d'IA perd son maillot sur un pari sur la Premier League

Restez informé avec des mises à jour gratuites

Les modèles d’IA de Google, OpenAI et Anthropic ont perdu de l’argent en pariant sur les matchs de football pendant la saison de Premier League, mais de nouvelles recherches suggèrent que même les systèmes les plus avancés ont du mal à analyser le monde réel sur de longues périodes.

Le rapport KellyBench publié cette semaine par la startup d’IA General Reasoning met en évidence l’écart entre les capacités de progression rapide de l’IA dans certaines tâches, telles que la création de logiciels, et ses lacunes dans d’autres types de problèmes humains.

General Reasoning, basé à Londres, a testé huit des meilleurs systèmes d’IA lors d’une recréation virtuelle de la saison 2023-24 de Premier League, fournissant des données historiques et des statistiques détaillées sur chaque équipe et les matchs passés. Il a été demandé à l’IA de construire un modèle qui maximise les rendements et gère les risques.

Les « agents » de l’IA parient ensuite sur les résultats des matchs et les points marqués pour tester comment ils pourraient s’adapter aux nouveaux événements et mettre à jour les données des joueurs au fur et à mesure de l’avancement de la saison.

L’IA n’avait pas accès à Internet pour récupérer les résultats, et chacun avait droit à trois tentatives pour réaliser un profit.

Claude Opus 4.6 d’Anthropic a été le plus réussi, avec une perte moyenne de 11% et presque le seuil de rentabilité en un seul essai.

Grok 4.20 de xAI s’est écrasé une fois et n’a pas réussi les deux tentatives restantes. Gemini 3.1 Pro de Google a réalisé un bénéfice de 34 % à un moment donné et a fait faillite à un autre moment.

« Tous les modèles Frontier que nous avons évalués ont perdu de l’argent au cours de la saison, et beaucoup ont connu des échecs », concluent les auteurs, notant que dans ce scénario, l’IA « sous-performe systématiquement les humains ».

Les résultats rassurent quelque peu les cols blancs et les entreprises qui craignent que l’IA ne leur vole leur emploi, car elle bouleverse les parts de marché dans des secteurs allant de la finance au marketing.

Ross Taylor, l’un des auteurs de l’étude et directeur général de General Reasoning, a déclaré : « Il y a tellement de battage médiatique autour de l’automatisation de l’IA, mais il y a si peu de mesures sur la mise en œuvre de l’IA à long terme. »

De nombreux tests de référence généralement utilisés pour tester l’IA sont défectueux car ils se déroulent dans des « environnements très statiques » qui n’ont que peu de ressemblance avec le chaos et la complexité du monde réel, a-t-il ajouté.

Recommandé

L’article de General Reasoning, qui n’a pas encore été évalué par des pairs, contrecarre l’enthousiasme croissant dans la Silicon Valley face aux récentes avancées majeures dans la capacité de l’IA à accomplir des tâches de programmation informatique avec peu ou pas d’intervention humaine.

Taylor, ancien chercheur en méta-IA, déclare : « Lorsque vous essayez l’IA sur des tâches du monde réel, vous obtenez de très mauvais résultats. Oui, le génie logiciel est très important et économiquement précieux, mais il existe de nombreuses autres activités importantes qui méritent une attention à long terme.

Source link

What's Hot

Le PDG d’United Airlines juge les candidats selon que les pilotes souhaitent ou non faire un voyage de quatre jours avec eux, sinon ils ne seront pas embauchés

La France abandonne Windows au profit de Linux pour réduire sa dépendance à la technologie américaine

YouTube Premium et YouTube Music deviennent de plus en plus chers

Un parieur d’IA perd son maillot sur un pari sur la Premier League

Le PDG d’United Airlines juge les candidats selon que les pilotes souhaitent ou non faire un voyage de quatre jours avec eux, sinon ils ne seront pas embauchés

« Les bébés deviennent des cibles faciles » : les bébés qui ne peuvent pas être vaccinés restent vulnérables dans le « foyer » de la rougeole

Prix du pétrole au 10 avril 2026

La prochaine génération de sénateurs héritera d’une bombe à retardement liée à la dette nationale : l’effondrement de la sécurité sociale.

La société Fintech Perpetuals présente la résilience quantique en tant que service (QRaaS)

FINTECH.TV et Comercio TV lancent Pulso del Mercado, la première émission financière quotidienne en direct en espagnol à la Bourse de New York

Grab lance des outils fintech pour améliorer l’accès au crédit et les paiements en Asie du Sud-Est

Top Insights

Le PDG d’United Airlines juge les candidats selon que les pilotes souhaitent ou non faire un voyage de quatre jours avec eux, sinon ils ne seront pas embauchés

La France abandonne Windows au profit de Linux pour réduire sa dépendance à la technologie américaine

YouTube Premium et YouTube Music deviennent de plus en plus chers

What's Hot

Un parieur d’IA perd son maillot sur un pari sur la Premier League

Related Posts

Subscribe to Updates