Restez informé avec des mises à jour gratuites
Inscrivez-vous simplement au myFT Digest sur l’intelligence artificielle, livré directement dans votre boîte de réception.
Les modèles d’IA de Google, OpenAI et Anthropic ont perdu de l’argent en pariant sur les matchs de football pendant la saison de Premier League, mais de nouvelles recherches suggèrent que même les systèmes les plus avancés ont du mal à analyser le monde réel sur de longues périodes.
Le rapport KellyBench publié cette semaine par la startup d’IA General Reasoning met en évidence l’écart entre les capacités de progression rapide de l’IA dans certaines tâches, telles que la création de logiciels, et ses lacunes dans d’autres types de problèmes humains.
General Reasoning, basé à Londres, a testé huit des meilleurs systèmes d’IA lors d’une recréation virtuelle de la saison 2023-24 de Premier League, fournissant des données historiques et des statistiques détaillées sur chaque équipe et les matchs passés. Il a été demandé à l’IA de construire un modèle qui maximise les rendements et gère les risques.
Les « agents » de l’IA parient ensuite sur les résultats des matchs et les points marqués pour tester comment ils pourraient s’adapter aux nouveaux événements et mettre à jour les données des joueurs au fur et à mesure de l’avancement de la saison.
L’IA n’avait pas accès à Internet pour récupérer les résultats, et chacun avait droit à trois tentatives pour réaliser un profit.
Claude Opus 4.6 d’Anthropic a été le plus réussi, avec une perte moyenne de 11% et presque le seuil de rentabilité en un seul essai.
Grok 4.20 de xAI s’est écrasé une fois et n’a pas réussi les deux tentatives restantes. Gemini 3.1 Pro de Google a réalisé un bénéfice de 34 % à un moment donné et a fait faillite à un autre moment.
« Tous les modèles Frontier que nous avons évalués ont perdu de l’argent au cours de la saison, et beaucoup ont connu des échecs », concluent les auteurs, notant que dans ce scénario, l’IA « sous-performe systématiquement les humains ».
Les résultats rassurent quelque peu les cols blancs et les entreprises qui craignent que l’IA ne leur vole leur emploi, car elle bouleverse les parts de marché dans des secteurs allant de la finance au marketing.
Ross Taylor, l’un des auteurs de l’étude et directeur général de General Reasoning, a déclaré : « Il y a tellement de battage médiatique autour de l’automatisation de l’IA, mais il y a si peu de mesures sur la mise en œuvre de l’IA à long terme. »
De nombreux tests de référence généralement utilisés pour tester l’IA sont défectueux car ils se déroulent dans des « environnements très statiques » qui n’ont que peu de ressemblance avec le chaos et la complexité du monde réel, a-t-il ajouté.
Recommandé
L’article de General Reasoning, qui n’a pas encore été évalué par des pairs, contrecarre l’enthousiasme croissant dans la Silicon Valley face aux récentes avancées majeures dans la capacité de l’IA à accomplir des tâches de programmation informatique avec peu ou pas d’intervention humaine.
Taylor, ancien chercheur en méta-IA, déclare : « Lorsque vous essayez l’IA sur des tâches du monde réel, vous obtenez de très mauvais résultats. Oui, le génie logiciel est très important et économiquement précieux, mais il existe de nombreuses autres activités importantes qui méritent une attention à long terme.


