Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

La Grèce s’attaque aux risques d’incendies de forêt liés au changement climatique grâce à un réseau satellite capable de détecter des incendies de la taille d’une place de parking

juin 26, 2026

La canicule en Europe est-elle plus meurtrière que la violence armée aux États-Unis ? D’une manière ou d’une autre, les choses empirent cette année

juin 26, 2026

Après avoir flirté avec les coupes politiques de Gavin Newsom, les syndicats sont « à fond » sur l’impôt des millionnaires en Californie

juin 26, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Une nouvelle étude suggère que la capacité de l’IA à « penser » la rend vulnérable aux nouvelles attaques de jailbreak
Business

Une nouvelle étude suggère que la capacité de l’IA à « penser » la rend vulnérable aux nouvelles attaques de jailbreak

JohnBy Johnnovembre 7, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email



Les modèles d’IA avancés pourraient être plus faciles à pirater qu’on ne le pensait, selon une nouvelle étude, soulevant des inquiétudes quant à la sûreté et à la sécurité de certains modèles d’IA clés déjà utilisés par les entreprises et les consommateurs.

La recherche conjointe entre Anthropic, l’Université d’Oxford et l’Université de Stanford remet en question l’hypothèse selon laquelle plus un modèle est capable de raisonner ou de « penser » aux demandes d’un utilisateur, plus sa capacité à rejeter les commandes nuisibles est forte.

Les chercheurs ont découvert qu’en utilisant une technique appelée « détournement de chaîne de pensée », même les principaux modèles commerciaux d’IA peuvent être trompés avec un taux de réussite étonnamment élevé de plus de 80 % à certains tests. Le nouveau mode d’attaque exploite essentiellement l’étape d’inférence, ou chaîne de pensée, du modèle pour masquer les commandes nuisibles, trompant ainsi l’IA en lui faisant ignorer ses protections intégrées.

Ces attaques peuvent permettre aux modèles d’IA de sauter les barrières de sécurité et de générer du contenu dangereux, comme des instructions pour fabriquer des armes ou divulguer des informations sensibles.

nouveau jailbreak

L’année dernière, les modèles d’inférence à grande échelle ont atteint des performances bien supérieures en allouant plus de temps de calcul pour l’inférence. Cela signifie qu’ils consacrent plus de temps et de ressources à analyser chaque question ou invite avant de répondre, ce qui permet des déductions plus profondes et plus complexes. Des recherches antérieures suggèrent que cette inférence améliorée pourrait également améliorer la sécurité en permettant au modèle de rejeter les demandes nuisibles. Cependant, les chercheurs ont découvert que ces mêmes capacités de raisonnement pouvaient être utilisées pour contourner les mesures de sécurité.

Les recherches montrent que les attaquants peuvent dissimuler des requêtes malveillantes au sein de longues séquences d’étapes d’inférence bénignes. Cela inonde le processus de réflexion de l’IA de contenu inoffensif et affaiblit ses contrôles de sécurité internes pour détecter et rejeter les invites dangereuses. Les chercheurs ont découvert que lors du détournement, l’attention de l’IA était principalement concentrée sur les premières étapes et que les instructions nuisibles à la fin de l’invite étaient presque complètement ignorées.

À mesure que la longueur de l’inférence augmente, le taux de réussite de l’attaque augmente considérablement. Des études ont montré que les taux de réussite passent de 27 % avec des inférences minimales à 51 % avec des longueurs d’inférence naturelles, et à plus de 80 % avec des chaînes d’inférence plus longues.

Cette vulnérabilité affecte presque tous les principaux modèles d’IA sur le marché aujourd’hui, y compris GPT d’OpenAI, Claude d’Anthropic, Gemini de Google et Grok de xAI. Même les modèles qui ont été affinés pour être plus sécurisés, appelés modèles « optimisés », commencent à échouer lorsque les attaquants exploitent les couches de raisonnement internes.

La mise à l’échelle de la puissance d’inférence d’un modèle est l’un des principaux moyens par lesquels les sociétés d’IA ont pu améliorer les performances globales des modèles frontières au cours de l’année dernière, après que les techniques de mise à l’échelle traditionnelles semblent devenir moins efficaces. L’inférence avancée permet aux modèles d’aborder des problèmes plus complexes, les faisant agir davantage comme des résolveurs de problèmes humains que comme des modèles.

Une solution proposée par les chercheurs est un type de « défense consciente de l’inférence ». Cette approche permet de déterminer si les contrôles de sécurité de l’IA restent actifs pendant que l’IA examine chaque étape de la question. Si une étape affaiblit ces signaux de sécurité, le système la pénalise et recentre l’attention de l’IA sur les parties potentiellement dangereuses de l’invite. Les premiers tests montrent que cette méthode permet à l’IA de bien fonctionner et peut répondre efficacement aux questions courantes tout en rétablissant la sécurité.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLe dernier des singes échappés d’un accident d’autoroute dans le Mississippi a été retrouvé et capturé.
Next Article Le PDG de Frontier parle de la réduction du transport aérien : si vous ne voulez pas être bloqué, achetez un deuxième billet auprès d’un concurrent
John
  • Website

Related Posts

La Grèce s’attaque aux risques d’incendies de forêt liés au changement climatique grâce à un réseau satellite capable de détecter des incendies de la taille d’une place de parking

juin 26, 2026

La canicule en Europe est-elle plus meurtrière que la violence armée aux États-Unis ? D’une manière ou d’une autre, les choses empirent cette année

juin 26, 2026

Après avoir flirté avec les coupes politiques de Gavin Newsom, les syndicats sont « à fond » sur l’impôt des millionnaires en Californie

juin 26, 2026

Prix ​​du pétrole au 26 juin 2026

juin 26, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

MAS lance le Future of Finance Institute pour amener l’IA et la tokenisation au-delà des projets pilotes

juin 26, 2026

The AI Race In Fintech Comes Down To One Thing: Trust

juin 25, 2026

The AI Race In Fintech Comes Down To One Thing: Trust

juin 25, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

La Grèce s’attaque aux risques d’incendies de forêt liés au changement climatique grâce à un réseau satellite capable de détecter des incendies de la taille d’une place de parking

juin 26, 2026

La canicule en Europe est-elle plus meurtrière que la violence armée aux États-Unis ? D’une manière ou d’une autre, les choses empirent cette année

juin 26, 2026

Après avoir flirté avec les coupes politiques de Gavin Newsom, les syndicats sont « à fond » sur l’impôt des millionnaires en Californie

juin 26, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.