Les chercheurs et les laboratoires en IA ont progressé à pas de géant dans l’évaluation des modèles d’IA dans tous les domaines, depuis la sécurité et la conformité jusqu’à la flagornerie et l’alignement. Mais il semble que les entreprises et les développeurs soient confrontés à un nouveau besoin spécifique : s’assurer que leur système d’IA se comporte comme prévu pour leur produit ou service spécifique.
Dans le but de simplifier ce processus de test, Microsoft a dévoilé mardi ASSERT, abréviation de Adaptive Spec-driven Scoring for Evaluation and Regression Testing.
Selon Microsoft, le cadre open source facilite l’évaluation du comportement de l’IA spécifique à une application en utilisant l’IA pour transformer des descriptions de haut niveau en langage naturel des objectifs, des politiques ou des comportements prévus en tests approfondis et notés qui peuvent être étudiés.
ASSERT prend des descriptions en langage clair du comportement et des politiques attendus d’un modèle d’IA, les transforme en un ensemble structuré de comportements acceptables et inacceptables, génère des scénarios de problèmes et des cas de test, les exécute sur le système cible et note les résultats. Il peut également enregistrer les chemins empruntés par le système d’IA, y compris les actions intermédiaires et les appels d’outils, afin que les développeurs puissent inspecter les endroits où les pannes se produisent.
Les développeurs peuvent également fournir le contexte, les outils et les contraintes du système s’ils souhaitent personnaliser davantage ce que couvrent les évaluations.
Par exemple, un développeur pourrait spécifier qu’un agent d’IA de recherche documentaire ne devrait pas envoyer d’e-mails à des personnes extérieures à l’entreprise, et qu’il devrait limiter les informations confidentielles aux cadres supérieurs et fournir des résumés concis en tenant compte du contexte préalable. ASSERT utilisera ces règles pour générer des cas de test qui vérifient si le système respecte ces règles de manière continue.

Selon Microsoft, ce cadre comble une lacune que les évaluations plus larges et plus générales ne peuvent pas combler lorsque les modèles d’IA sont censés se comporter d’une manière façonnée par le contexte, les politiques et les outils d’une application ou d’un produit.
« L’une des choses que nous avons apprises est que les évaluations sont absolument essentielles pour prendre de bonnes décisions », a déclaré Sarah Bird, directrice des produits Responsible AI chez Microsoft. « Parce que si vous ne comprenez pas le comportement du système d’IA, il est vraiment difficile de savoir s’il répond aux exigences de votre organisation… Ce que nous avons découvert, c’est que si vous voulez vraiment avoir un système fiable, vous devez évaluer beaucoup plus de dimensions spécifiques à l’application. »
Bird a déclaré que ASSERT peut être utilisé pour évaluer les systèmes lors de leur construction, après leur déploiement et même pour une surveillance continue.
Cette publication intervient au milieu d’un changement progressif mais plus large dans l’industrie de l’IA. À mesure que les modèles deviennent plus performants, les chercheurs se concentrent sur les tests reproductibles et les contrôles de régression, avec HELM de Stanford, AILuminate de MLCommons et des groupes d’évaluation comme METR déployant des tests de référence pour mesurer le comportement des modèles dans différentes conditions.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

