Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Le PDG Satya Nadella fait valoir son point de vue à San Francisco alors que Microsoft vise le centre de gravité de l’IA

juin 2, 2026

Le PDG du centre de données souhaite faire revenir des travailleurs qualifiés au cours de sa vie – en recrutant des membres de la génération Z pour vivre sur leur canapé avec deux semaines de congé dès le premier jour.

juin 2, 2026

Les cyberdecks ont le vent en poupe, rejetant la surveillance des grandes technologies avec style et substance

juin 2, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Le nouvel outil Microsoft permet aux développeurs de lancer des tests de comportement d’IA à l’aide de descriptions textuelles
Startups

Le nouvel outil Microsoft permet aux développeurs de lancer des tests de comportement d’IA à l’aide de descriptions textuelles

JohnBy Johnjuin 2, 2026Aucun commentaire3 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Les chercheurs et les laboratoires en IA ont progressé à pas de géant dans l’évaluation des modèles d’IA dans tous les domaines, depuis la sécurité et la conformité jusqu’à la flagornerie et l’alignement. Mais il semble que les entreprises et les développeurs soient confrontés à un nouveau besoin spécifique : s’assurer que leur système d’IA se comporte comme prévu pour leur produit ou service spécifique.

Dans le but de simplifier ce processus de test, Microsoft a dévoilé mardi ASSERT, abréviation de Adaptive Spec-driven Scoring for Evaluation and Regression Testing.

Selon Microsoft, le cadre open source facilite l’évaluation du comportement de l’IA spécifique à une application en utilisant l’IA pour transformer des descriptions de haut niveau en langage naturel des objectifs, des politiques ou des comportements prévus en tests approfondis et notés qui peuvent être étudiés.

ASSERT prend des descriptions en langage clair du comportement et des politiques attendus d’un modèle d’IA, les transforme en un ensemble structuré de comportements acceptables et inacceptables, génère des scénarios de problèmes et des cas de test, les exécute sur le système cible et note les résultats. Il peut également enregistrer les chemins empruntés par le système d’IA, y compris les actions intermédiaires et les appels d’outils, afin que les développeurs puissent inspecter les endroits où les pannes se produisent.

Les développeurs peuvent également fournir le contexte, les outils et les contraintes du système s’ils souhaitent personnaliser davantage ce que couvrent les évaluations.

Par exemple, un développeur pourrait spécifier qu’un agent d’IA de recherche documentaire ne devrait pas envoyer d’e-mails à des personnes extérieures à l’entreprise, et qu’il devrait limiter les informations confidentielles aux cadres supérieurs et fournir des résumés concis en tenant compte du contexte préalable. ASSERT utilisera ces règles pour générer des cas de test qui vérifient si le système respecte ces règles de manière continue.

Crédits image : Microsoft

Selon Microsoft, ce cadre comble une lacune que les évaluations plus larges et plus générales ne peuvent pas combler lorsque les modèles d’IA sont censés se comporter d’une manière façonnée par le contexte, les politiques et les outils d’une application ou d’un produit.

« L’une des choses que nous avons apprises est que les évaluations sont absolument essentielles pour prendre de bonnes décisions », a déclaré Sarah Bird, directrice des produits Responsible AI chez Microsoft. « Parce que si vous ne comprenez pas le comportement du système d’IA, il est vraiment difficile de savoir s’il répond aux exigences de votre organisation… Ce que nous avons découvert, c’est que si vous voulez vraiment avoir un système fiable, vous devez évaluer beaucoup plus de dimensions spécifiques à l’application. »

Bird a déclaré que ASSERT peut être utilisé pour évaluer les systèmes lors de leur construction, après leur déploiement et même pour une surveillance continue.

Cette publication intervient au milieu d’un changement progressif mais plus large dans l’industrie de l’IA. À mesure que les modèles deviennent plus performants, les chercheurs se concentrent sur les tests reproductibles et les contrôles de régression, avec HELM de Stanford, AILuminate de MLCommons et des groupes d’évaluation comme METR déployant des tests de référence pour mesurer le comportement des modèles dans différentes conditions.

Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleAI may already be adding billions to the economy—without showing up in the data
Next Article Uber plafonne les dépenses de ses employés en matière d’IA après avoir explosé son budget en quatre mois
John
  • Website

Related Posts

Les cyberdecks ont le vent en poupe, rejetant la surveillance des grandes technologies avec style et substance

juin 2, 2026

Uber plafonne les dépenses de ses employés en matière d’IA après avoir explosé son budget en quatre mois

juin 2, 2026

Une startup, Everand, regroupe désormais des livres électroniques, des livres audio et des clubs de lecture pour défier Amazon.

juin 2, 2026

Martin Scorsese devient la dernière – et la plus improbable – voix hollywoodienne de l’IA

juin 2, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

DXC annonce DXC CoreIgnite, aidant les institutions financières à se connecter et à développer rapidement l’écosystème FinTech

juin 2, 2026

Le chiffre d’affaires et les actifs des clients ont augmenté de manière constante au premier trimestre, avec un chiffre d’affaires total en hausse de 26,3 % sur un an.

juin 2, 2026

Paris garantit 200 nouveaux emplois dans la fintech alors que Macron soutient l’aide de 116 millions de dollars de Revolut à la France

juin 1, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Le PDG Satya Nadella fait valoir son point de vue à San Francisco alors que Microsoft vise le centre de gravité de l’IA

juin 2, 2026

Le PDG du centre de données souhaite faire revenir des travailleurs qualifiés au cours de sa vie – en recrutant des membres de la génération Z pour vivre sur leur canapé avec deux semaines de congé dès le premier jour.

juin 2, 2026

Les cyberdecks ont le vent en poupe, rejetant la surveillance des grandes technologies avec style et substance

juin 2, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.