
Les modèles d’IA avancés pourraient être plus faciles à pirater qu’on ne le pensait, selon une nouvelle étude, soulevant des inquiétudes quant à la sûreté et à la sécurité de certains modèles d’IA clés déjà utilisés par les entreprises et les consommateurs.
La recherche conjointe entre Anthropic, l’Université d’Oxford et l’Université de Stanford remet en question l’hypothèse selon laquelle plus un modèle est capable de raisonner ou de « penser » aux demandes d’un utilisateur, plus sa capacité à rejeter les commandes nuisibles est forte.
Les chercheurs ont découvert qu’en utilisant une technique appelée « détournement de chaîne de pensée », même les principaux modèles commerciaux d’IA peuvent être trompés avec un taux de réussite étonnamment élevé de plus de 80 % à certains tests. Le nouveau mode d’attaque exploite essentiellement l’étape d’inférence, ou chaîne de pensée, du modèle pour masquer les commandes nuisibles, trompant ainsi l’IA en lui faisant ignorer ses protections intégrées.
Ces attaques peuvent permettre aux modèles d’IA de sauter les barrières de sécurité et de générer du contenu dangereux, comme des instructions pour fabriquer des armes ou divulguer des informations sensibles.
nouveau jailbreak
L’année dernière, les modèles d’inférence à grande échelle ont atteint des performances bien supérieures en allouant plus de temps de calcul pour l’inférence. Cela signifie qu’ils consacrent plus de temps et de ressources à analyser chaque question ou invite avant de répondre, ce qui permet des déductions plus profondes et plus complexes. Des recherches antérieures suggèrent que cette inférence améliorée pourrait également améliorer la sécurité en permettant au modèle de rejeter les demandes nuisibles. Cependant, les chercheurs ont découvert que ces mêmes capacités de raisonnement pouvaient être utilisées pour contourner les mesures de sécurité.
Les recherches montrent que les attaquants peuvent dissimuler des requêtes malveillantes au sein de longues séquences d’étapes d’inférence bénignes. Cela inonde le processus de réflexion de l’IA de contenu inoffensif et affaiblit ses contrôles de sécurité internes pour détecter et rejeter les invites dangereuses. Les chercheurs ont découvert que lors du détournement, l’attention de l’IA était principalement concentrée sur les premières étapes et que les instructions nuisibles à la fin de l’invite étaient presque complètement ignorées.
À mesure que la longueur de l’inférence augmente, le taux de réussite de l’attaque augmente considérablement. Des études ont montré que les taux de réussite passent de 27 % avec des inférences minimales à 51 % avec des longueurs d’inférence naturelles, et à plus de 80 % avec des chaînes d’inférence plus longues.
Cette vulnérabilité affecte presque tous les principaux modèles d’IA sur le marché aujourd’hui, y compris GPT d’OpenAI, Claude d’Anthropic, Gemini de Google et Grok de xAI. Même les modèles qui ont été affinés pour être plus sécurisés, appelés modèles « optimisés », commencent à échouer lorsque les attaquants exploitent les couches de raisonnement internes.
La mise à l’échelle de la puissance d’inférence d’un modèle est l’un des principaux moyens par lesquels les sociétés d’IA ont pu améliorer les performances globales des modèles frontières au cours de l’année dernière, après que les techniques de mise à l’échelle traditionnelles semblent devenir moins efficaces. L’inférence avancée permet aux modèles d’aborder des problèmes plus complexes, les faisant agir davantage comme des résolveurs de problèmes humains que comme des modèles.
Une solution proposée par les chercheurs est un type de « défense consciente de l’inférence ». Cette approche permet de déterminer si les contrôles de sécurité de l’IA restent actifs pendant que l’IA examine chaque étape de la question. Si une étape affaiblit ces signaux de sécurité, le système la pénalise et recentre l’attention de l’IA sur les parties potentiellement dangereuses de l’invite. Les premiers tests montrent que cette méthode permet à l’IA de bien fonctionner et peut répondre efficacement aux questions courantes tout en rétablissant la sécurité.

