
OpenAI a annoncé la semaine dernière deux nouveaux outils de téléchargement gratuits visant à permettre aux entreprises de créer plus facilement des garde-fous autour des invites saisies par les utilisateurs dans les modèles d’IA et des résultats produits par ces systèmes.
Les nouveaux garde-fous sont conçus pour permettre aux entreprises de définir plus facilement des contrôles pour empêcher les chatbots du service client de répondre sur un ton grossier, par exemple, ou de révéler des politiques internes sur la manière dont des décisions telles que les remboursements doivent être prises.
Mais bien que ces outils soient conçus pour rendre les modèles d’IA plus sécurisés pour les entreprises clientes, certains experts en sécurité préviennent que les méthodes publiées par OpenAI pourraient créer de nouvelles vulnérabilités et donner aux entreprises un faux sentiment de sécurité. Et tandis qu’OpenAI affirme qu’il propose ces outils de sécurité à tout le monde, certains se demandent si les motivations d’OpenAI sont motivées en partie par le désir d’émousser l’un des avantages de son rival en matière d’IA, Anthropic. Anthropic a gagné du terrain parmi les utilisateurs professionnels, en partie grâce à la perception que son modèle Claude possède des garde-corps plus solides que ceux de ses concurrents.
Les outils de sécurité OpenAI (appelés gpt-oss-safeguard-120b et gpt-oss-safeguard-20b) sont eux-mêmes un type de modèle d’IA connu sous le nom de classificateur, conçu pour évaluer si les invites que vous envoyez à un modèle d’IA plus grand et plus général, et les invites générées par le modèle d’IA plus grand, satisfont à un ensemble de règles. Les entreprises qui achètent et déploient des modèles d’IA pouvaient auparavant former elles-mêmes ces classificateurs, mais ce processus pourrait être long et coûteux, car les développeurs devraient collecter des exemples de contenu qui enfreignent les politiques pour former les classificateurs. Et si les entreprises souhaitent ajuster les politiques utilisées pour les garde-fous, elles devront collecter de nouveaux exemples de violations et recycler le classificateur.
OpenAI espère que les nouveaux outils rendront ce processus plus rapide et plus flexible. Plutôt que d’être formés à suivre un règlement fixe, ces nouveaux classificateurs de sécurité peuvent simplement lire la politique documentée et l’appliquer au nouveau contenu.
OpenAI affirme que cette méthode, qu’elle appelle « classification basée sur l’inférence », permet aux entreprises d’ajuster les politiques de sécurité aussi facilement que de modifier le texte d’un document, plutôt que de reconstruire l’intégralité du modèle de classification. La société positionne cette version comme un outil destiné aux entreprises qui souhaitent mieux contrôler la manière dont leurs systèmes d’IA traitent les informations sensibles telles que les dossiers médicaux et des ressources humaines.
Mais alors que ces outils sont censés être plus sûrs pour les clients professionnels, certains experts en sécurité affirment qu’ils peuvent plutôt donner aux utilisateurs un faux sentiment de sécurité. C’est parce qu’OpenAI ouvre ses classificateurs d’IA. Cela signifie que tout le code du classificateur est désormais disponible gratuitement, y compris les poids et les paramètres internes du modèle IA.
Les classificateurs agissent comme des barrières de sécurité supplémentaires pour les systèmes d’IA, conçues pour arrêter les invites dangereuses ou malveillantes avant qu’elles n’atteignent le modèle principal. Mais en les open source, OpenAI risque de partager les plans de ces portes. Cette transparence pourrait aider les chercheurs à renforcer les mécanismes de sécurité, mais elle pourrait également permettre aux mauvais acteurs de repérer plus facilement les faiblesses et les risques, créant ainsi une sorte de faux sentiment de sécurité.
« Le fait que ces modèles soient open source aide les attaquants ainsi que les défenseurs », a déclaré à Fortune David Krueger, professeur de sécurité de l’IA à l’Université de Mila. « Cela facilite le développement d’approches permettant de contourner les classificateurs et autres garanties similaires. »
Par exemple, si un attaquant a accès aux poids du classificateur, il est plus facile de développer des attaques dites « d’injection rapide ». Cela signifie développer des invites qui incitent le classificateur à ignorer la politique que vous souhaitez appliquer. Les chercheurs en sécurité ont découvert que dans certains cas, des chaînes de caractères qui semblent dénuées de sens pour les humains, pour des raisons qui ne sont pas entièrement comprises par les chercheurs, peuvent amener les modèles d’IA à ignorer les garde-fous et à faire des choses qu’ils ne sont pas censés faire, comme donner des conseils sur la fabrication de bombes ou envoyer des diatribes racistes.
Un représentant d’OpenAI a renvoyé Fortune à l’annonce du blog de la société et au rapport technique sur le modèle.
La douleur à court terme crée un gain à long terme
L’open source peut être une arme à double tranchant en matière de sécurité. Cela permettra aux chercheurs et aux développeurs de tester, d’améliorer et d’adapter les mesures de protection de l’IA plus rapidement, augmentant ainsi la transparence et la confiance. Par exemple, il peut exister un moyen pour les chercheurs en sécurité d’ajuster les poids d’un modèle pour le rendre plus robuste afin d’encourager les injections sans dégrader les performances du modèle.
Cependant, cela permet également aux attaquants d’explorer et de contourner plus facilement ces protections. Par exemple, utilisez d’autres logiciels d’apprentissage automatique pour parcourir des centaines de milliers d’invites possibles jusqu’à ce que vous en trouviez une qui fasse sauter votre modèle par-dessus un garde-corps. De plus, les chercheurs en sécurité ont découvert que ce type d’attaque par injection rapide générée automatiquement et développée sur des modèles d’IA open source peut également fonctionner contre des modèles d’IA propriétaires, dans lesquels les attaquants n’ont pas accès au code sous-jacent ni aux pondérations des modèles. Les chercheurs supposent que cela est dû au fait qu’il existe quelque chose d’unique dans la façon dont tous les grands modèles de langage encodent le langage, et que des injections rapides similaires réussiront pour n’importe quel modèle d’IA.
De cette manière, les classificateurs open source donnent non seulement aux utilisateurs un faux sentiment de sécurité selon lequel leurs systèmes sont bien protégés, mais peuvent en réalité rendre tous les modèles d’IA moins sécurisés. Cependant, les experts ont déclaré que l’open source du classificateur permettrait à tous les experts en sécurité du monde entier de trouver plus facilement des moyens de rendre le classificateur plus résistant à ce type d’attaque, cela vaut donc probablement la peine de prendre ce risque.
« À long terme, il est bénéfique d’avoir un mécanisme de défense partagé. Cela peut causer quelques douleurs à court terme, mais à long terme, cela se traduit par des défenses robustes qui sont en réalité très difficiles à contourner », a déclaré Vasilios Mavroudis, scientifique principal à l’Institut Alan Turing.
Mavroudis a déclaré que l’open source du classificateur pourrait théoriquement permettre à quelqu’un d’essayer de contourner plus facilement les systèmes de sécurité des modèles de base d’OpenAI, mais la société estime probablement que le risque est faible. Il a déclaré qu’OpenAI avait également d’autres garanties en place, notamment le fait qu’une équipe d’experts en sécurité humaine teste continuellement les garde-fous du modèle pour trouver et, espérons-le, corriger les vulnérabilités.
« L’open source du modèle de classificateur donne à ceux qui veulent contourner le classificateur l’opportunité d’apprendre comment le faire, mais les jailbreakers déterminés ont de bonnes chances de réussir de toute façon », a déclaré Robert Trager, co-directeur de l’Oxford Martin AI Governance Initiative.
« Nous avons récemment découvert un moyen de contourner toutes les principales mesures de protection des développeurs environ 95 % du temps, et nous ne recherchions pas une telle méthode. Étant donné que les jailbreakers déterminés réussissent de toute façon, les systèmes open source que les développeurs peuvent utiliser pour les moins déterminés sont bénéfiques », a-t-il ajouté.
concours d’IA d’entreprise
Cette version a également des implications concurrentielles, d’autant plus qu’OpenAI cherche à défier la présence croissante de la société rivale d’IA Anthropic parmi les entreprises clientes. La famille de modèles d’IA Claude d’Anthropic gagne en popularité auprès des entreprises clientes, en partie en raison de sa réputation de contrôles de sécurité rigoureux par rapport aux autres modèles d’IA. Parmi les outils de sécurité utilisés par Anthropic se trouve un « classificateur constitutionnel » qui fonctionne de manière similaire à celui qu’OpenAI vient d’ouvrir.
Anthropic s’est taillé une niche auprès des entreprises clientes, notamment en matière de codage. Selon un rapport de juillet de Menlo Ventures, Anthropic détient 32 % de part de marché pour les modèles linguistiques d’entreprise à grande échelle par application, contre 25 % pour OpenAI. Anthropic représenterait 42 % des cas d’utilisation spécifiques au codage et OpenAI 21 %. OpenAI tente peut-être de conquérir certains de ces clients professionnels en proposant des outils prêts à l’emploi, tout en s’imposant comme un leader en matière de sécurité de l’IA.
Les « classificateurs constructifs » d’Anthropic sont constitués de petits modèles de langage qui vérifient la sortie d’un modèle plus grand par rapport à un ensemble écrit de valeurs ou de politiques. En open sourceant des fonctionnalités similaires, OpenAI fournit effectivement aux développeurs le même type de garde-fous personnalisables qui ont contribué à rendre le modèle d’Anthropic si attrayant.
« D’après ce que nous avons vu de la part de la communauté, le produit semble être bien accueilli », a déclaré Mavroudis. « Ils voient ce modèle comme un moyen d’obtenir potentiellement une modération automatique, et il a également de belles connotations, comme « vous redonnez à la communauté ». » Peut-être que cela pourrait aussi être un outil utile pour les petites entreprises qui ne peuvent pas former de tels modèles par elles-mêmes. »
Certains experts craignent que l’open source de ces classificateurs de sécurité ne centralise ce que l’IA est considérée comme « sûre ».
« La sécurité n’est pas un concept clairement défini. La mise en œuvre de normes de sécurité reflète les valeurs et les priorités des organisations qui les créent, ainsi que les limites et les défauts de leurs modèles », a déclaré à VentureBeat John Sixtan, professeur adjoint d’informatique à l’Université Cornell. « Si l’ensemble du secteur adopte les normes développées par OpenAI, nous risquons d’institutionnaliser une perspective particulière sur la sécurité et de perturber la recherche plus large sur les besoins de sécurité des déploiements d’IA dans de nombreux secteurs de la société. »

