Le mois dernier, j’ai écrit sur le nouveau benchmark de Mercor mesurant les capacités des agents d’IA dans des tâches professionnelles telles que le droit et l’analyse d’entreprise. À l’époque, les résultats étaient plutôt lamentables, chaque grand laboratoire obtenant un score inférieur à 25 %. Nous avons donc conclu que les avocats étaient à l’abri du déplacement de l’IA, du moins pour le moment.
Mais les capacités de l’IA peuvent changer considérablement en quelques semaines.
La sortie cette semaine de l’Opus 4.6 d’Anthropic a bouleversé les classements, avec le nouveau modèle d’Anthropic obtenant un score d’un peu moins de 30 % lors des essais ponctuels, et une moyenne de 45 % lorsqu’on lui donne quelques solutions supplémentaires au problème. Notamment, la version incluait un certain nombre de nouvelles fonctionnalités agents, notamment des « essaims d’agents », qui auraient pu contribuer à ce type de résolution de problèmes en plusieurs étapes.
Quoi qu’il en soit, le score représente un énorme bond par rapport à l’état de l’art précédent et un signe que les progrès sur les modèles de fondation ne ralentissent pas. Brendan Foody, PDG de Mercor, qui a été particulièrement impressionné, a déclaré : « passer de 18,4 % à 29,8 % en quelques mois est insensé ».

Trente pour cent, c’est encore loin de 100 %, ce n’est donc pas comme si les avocats devaient s’inquiéter d’être remplacés par des machines la semaine prochaine. Mais ils devraient être beaucoup moins confiants que le mois dernier !

