Les agents IA sont de plus en plus sophistiqués. Ils évoluent de la réponse aux questions à l’exécution autonome de tâches complexes en plusieurs étapes.
Mais avant de pouvoir faire confiance à ces agents pour réserver des voyages ou effectuer des analyses financières au nom des utilisateurs, les fournisseurs de modèles et les startups qui créent de tels agents veulent s’assurer qu’ils fonctionnent de manière fiable dans une vaste gamme de scénarios.
Les laboratoires d’IA utilisent souvent des benchmarks pour montrer les prouesses de leur modèle, mais un score élevé, même sur un benchmark orienté agent, ne prouve pas réellement qu’une IA peut accomplir correctement diverses tâches complexes et réelles.
Patronus AI, une startup fondée en 2023 par les anciens chercheurs de Meta AI Anand Kannappan et Rebecca Qian, aide les modélistes et les entreprises à affiner leurs modèles pour y parvenir en créant des environnements numériques simulés dans lesquels évaluer les performances des agents.
La startup basée à San Francisco doit résoudre un problème important. Pratiquement tous les laboratoires d’IA de pointe et de nombreuses startups émergentes sont désormais des clients, selon Glenn Solomon, directeur général de Notable Capital, qui décrit la demande pour les environnements simulés de l’entreprise comme étant presque insatiable.
Les revenus de Patronus ont été multipliés par 15 au cours de l’année écoulée, suscitant un intérêt important des investisseurs. Jeudi, la société a annoncé un tour de table de série B de 50 millions de dollars dirigé par Greenfield Partners, avec la participation de Notable Capital, Lightspeed, Datadog et Samsung. Ce cycle porte le financement total de l’entreprise à 70 millions de dollars.
Patronus utilise ce qu’il appelle des « modèles du monde numérique » pour créer des répliques de sites Web et de systèmes internes. Dans ces environnements, les agents sont soumis à des tests de stress après une formation utilisant l’apprentissage par renforcement, qui récompense de manière itérative la réussite des tâches et pénalise les erreurs.
Les laboratoires d’IA voient une grande valeur dans ces simulations numériques car elles donnent aux agents la possibilité d’essayer différents scénarios, parfois imprévisibles. L’entreprise compare son approche à la façon dont Waymo a formé des voitures autonomes en construisant d’abord des mondes synthétiques pour tester les véhicules contre des dangers rares, tels que des conditions météorologiques extrêmes ou un enfant courant après un ballon.
La différence avec les agents IA est qu’ils ont tendance à prendre des raccourcis, ce qui signifie qu’ils ne parviennent pas à accomplir la tâche correctement. « Patronus est vraiment doué pour repérer les hacks et s’assurer qu’ils tiennent les modèles pour responsables », a déclaré Solomon.
Patronus propose actuellement ses mondes numériques simulés pour l’ingénierie logicielle et la finance, mais ce n’est qu’un début, selon Kannappan.
« Aujourd’hui, nous sommes très concentrés sur les problèmes qui sont vérifiables, donc les problèmes que vous pouvez immédiatement vérifier et vérifier, mais il y a une tonne d’autres domaines qui sont très non vérifiables ou très difficiles à vérifier », a-t-il déclaré.
Ce n’est pas parce que ces processus sont vérifiables qu’ils sont simples. « Nous voulons être en mesure de créer réellement un environnement dans lequel vous pouvez exploiter un agent pouvant fonctionner pendant 10 heures, 10 jours ou 10 semaines », a déclaré Kannappan.
Quant aux concurrents, Patronus estime qu’il est principalement en concurrence avec les équipes internes que les laboratoires d’IA ont déjà constituées pour évaluer le comportement des agents. Alors que les sociétés de données humaines comme Mercor et Surge aident les modélistes dans l’apprentissage par renforcement, Patronus fonctionne différemment en évaluant le comportement des agents sans aucune implication humaine.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

