Le nouvel outil Microsoft permet aux développeurs de lancer des tests de comportement d'IA à l'aide de descriptions textuelles

Les chercheurs et les laboratoires en IA ont progressé à pas de géant dans l’évaluation des modèles d’IA dans tous les domaines, depuis la sécurité et la conformité jusqu’à la flagornerie et l’alignement. Mais il semble que les entreprises et les développeurs soient confrontés à un nouveau besoin spécifique : s’assurer que leur système d’IA se comporte comme prévu pour leur produit ou service spécifique.

Dans le but de simplifier ce processus de test, Microsoft a dévoilé mardi ASSERT, abréviation de Adaptive Spec-driven Scoring for Evaluation and Regression Testing.

Selon Microsoft, le cadre open source facilite l’évaluation du comportement de l’IA spécifique à une application en utilisant l’IA pour transformer des descriptions de haut niveau en langage naturel des objectifs, des politiques ou des comportements prévus en tests approfondis et notés qui peuvent être étudiés.

ASSERT prend des descriptions en langage clair du comportement et des politiques attendus d’un modèle d’IA, les transforme en un ensemble structuré de comportements acceptables et inacceptables, génère des scénarios de problèmes et des cas de test, les exécute sur le système cible et note les résultats. Il peut également enregistrer les chemins empruntés par le système d’IA, y compris les actions intermédiaires et les appels d’outils, afin que les développeurs puissent inspecter les endroits où les pannes se produisent.

Les développeurs peuvent également fournir le contexte, les outils et les contraintes du système s’ils souhaitent personnaliser davantage ce que couvrent les évaluations.

Par exemple, un développeur pourrait spécifier qu’un agent d’IA de recherche documentaire ne devrait pas envoyer d’e-mails à des personnes extérieures à l’entreprise, et qu’il devrait limiter les informations confidentielles aux cadres supérieurs et fournir des résumés concis en tenant compte du contexte préalable. ASSERT utilisera ces règles pour générer des cas de test qui vérifient si le système respecte ces règles de manière continue.

Selon Microsoft, ce cadre comble une lacune que les évaluations plus larges et plus générales ne peuvent pas combler lorsque les modèles d’IA sont censés se comporter d’une manière façonnée par le contexte, les politiques et les outils d’une application ou d’un produit.

« L’une des choses que nous avons apprises est que les évaluations sont absolument essentielles pour prendre de bonnes décisions », a déclaré Sarah Bird, directrice des produits Responsible AI chez Microsoft. « Parce que si vous ne comprenez pas le comportement du système d’IA, il est vraiment difficile de savoir s’il répond aux exigences de votre organisation… Ce que nous avons découvert, c’est que si vous voulez vraiment avoir un système fiable, vous devez évaluer beaucoup plus de dimensions spécifiques à l’application. »

Bird a déclaré que ASSERT peut être utilisé pour évaluer les systèmes lors de leur construction, après leur déploiement et même pour une surveillance continue.

Cette publication intervient au milieu d’un changement progressif mais plus large dans l’industrie de l’IA. À mesure que les modèles deviennent plus performants, les chercheurs se concentrent sur les tests reproductibles et les contrôles de régression, avec HELM de Stanford, AILuminate de MLCommons et des groupes d’évaluation comme METR déployant des tests de référence pour mesurer le comportement des modèles dans différentes conditions.

Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

Source link

What's Hot

Le PDG Satya Nadella fait valoir son point de vue à San Francisco alors que Microsoft vise le centre de gravité de l’IA

Le PDG du centre de données souhaite faire revenir des travailleurs qualifiés au cours de sa vie – en recrutant des membres de la génération Z pour vivre sur leur canapé avec deux semaines de congé dès le premier jour.

Les cyberdecks ont le vent en poupe, rejetant la surveillance des grandes technologies avec style et substance

Le nouvel outil Microsoft permet aux développeurs de lancer des tests de comportement d’IA à l’aide de descriptions textuelles

Les cyberdecks ont le vent en poupe, rejetant la surveillance des grandes technologies avec style et substance

Uber plafonne les dépenses de ses employés en matière d’IA après avoir explosé son budget en quatre mois

Une startup, Everand, regroupe désormais des livres électroniques, des livres audio et des clubs de lecture pour défier Amazon.

Martin Scorsese devient la dernière – et la plus improbable – voix hollywoodienne de l’IA

DXC annonce DXC CoreIgnite, aidant les institutions financières à se connecter et à développer rapidement l’écosystème FinTech

Le chiffre d’affaires et les actifs des clients ont augmenté de manière constante au premier trimestre, avec un chiffre d’affaires total en hausse de 26,3 % sur un an.

Paris garantit 200 nouveaux emplois dans la fintech alors que Macron soutient l’aide de 116 millions de dollars de Revolut à la France

Top Insights

Le PDG Satya Nadella fait valoir son point de vue à San Francisco alors que Microsoft vise le centre de gravité de l’IA

Le PDG du centre de données souhaite faire revenir des travailleurs qualifiés au cours de sa vie – en recrutant des membres de la génération Z pour vivre sur leur canapé avec deux semaines de congé dès le premier jour.

Les cyberdecks ont le vent en poupe, rejetant la surveillance des grandes technologies avec style et substance

What's Hot

Le nouvel outil Microsoft permet aux développeurs de lancer des tests de comportement d’IA à l’aide de descriptions textuelles

Related Posts

Subscribe to Updates