Peut-être que les agents IA peuvent être des avocats après tout

Le mois dernier, j’ai écrit sur le nouveau benchmark de Mercor mesurant les capacités des agents d’IA dans des tâches professionnelles telles que le droit et l’analyse d’entreprise. À l’époque, les résultats étaient plutôt lamentables, chaque grand laboratoire obtenant un score inférieur à 25 %. Nous avons donc conclu que les avocats étaient à l’abri du déplacement de l’IA, du moins pour le moment.

Mais les capacités de l’IA peuvent changer considérablement en quelques semaines.

La sortie cette semaine de l’Opus 4.6 d’Anthropic a bouleversé les classements, avec le nouveau modèle d’Anthropic obtenant un score d’un peu moins de 30 % lors des essais ponctuels, et une moyenne de 45 % lorsqu’on lui donne quelques solutions supplémentaires au problème. Notamment, la version incluait un certain nombre de nouvelles fonctionnalités agents, notamment des « essaims d’agents », qui auraient pu contribuer à ce type de résolution de problèmes en plusieurs étapes.

Quoi qu’il en soit, le score représente un énorme bond par rapport à l’état de l’art précédent et un signe que les progrès sur les modèles de fondation ne ralentissent pas. Brendan Foody, PDG de Mercor, qui a été particulièrement impressionné, a déclaré : « passer de 18,4 % à 29,8 % en quelques mois est insensé ».

Le classement APEX-Agents.Crédits image : Mercor (capture d’écran)

Trente pour cent, c’est encore loin de 100 %, ce n’est donc pas comme si les avocats devaient s’inquiéter d’être remplacés par des machines la semaine prochaine. Mais ils devraient être beaucoup moins confiants que le mois dernier !

Source link

What's Hot

Airbnb offre 750 $ à ses hôtes pour ouvrir leur maison pour la Coupe du monde, ce qui leur rapporte des milliers de dollars

Dans l’esprit de Kevin Warsh avec Condoleezza Rice, Jerry Yang et Donald Cohn

Meet the Zillennials: The luckiest micro-generation in the workforce, born between 1993 and 1998

Peut-être que les agents IA peuvent être des avocats après tout

Un homme politique qui enquêtait sur les abus liés aux logiciels espions a vu son téléphone piraté avec le logiciel espion Pegasus

Dernière chance de postuler – Les candidatures pour les startups Battlefield Australia se terminent le 6 juillet

Mark Zuckerberg dit au personnel que les agents d’IA n’ont pas progressé aussi vite qu’il l’espérait

Des pilotes spatiaux privés effectuent des missions orbitales pour l’US Space Force

Mynd Fintech de M1xchange acquiert C2FO India

L’ère de la spécialisation fintech va-t-elle prendre fin ?

L’ère de la spécialisation fintech va-t-elle prendre fin ?

Top Insights

Airbnb offre 750 $ à ses hôtes pour ouvrir leur maison pour la Coupe du monde, ce qui leur rapporte des milliers de dollars

Dans l’esprit de Kevin Warsh avec Condoleezza Rice, Jerry Yang et Donald Cohn

Meet the Zillennials: The luckiest micro-generation in the workforce, born between 1993 and 1998

What's Hot

Peut-être que les agents IA peuvent être des avocats après tout

Related Posts

Subscribe to Updates