Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Goldman Sachs prévient que les paris sur les actions à effet de levier sont « fortement concentrés dans l’écosystème de l’IA »

juillet 1, 2026

Nvidia a bâti une entreprise de près de 5 000 milliards de dollars en faisant payer aux gens leurs propres déjeuners

juillet 1, 2026

Henry Ford, Steve Jobs, William Boeing : les fondateurs du Fortune 500 étaient des enfants d’immigrés

juillet 1, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Anthropic dit que la plupart des modèles d’IA, pas seulement Claude, auront recours au chantage
Startups

Anthropic dit que la plupart des modèles d’IA, pas seulement Claude, auront recours au chantage

JohnBy Johnjuin 20, 2025Aucun commentaire5 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Plusieurs semaines après que Anthropic a publié des recherches affirmant que son modèle Claude Opus 4 AI a eu recours à des ingénieurs chanteurs qui ont essayé de désactiver le modèle dans des scénarios de test contrôlés, la société est sortie avec de nouvelles recherches suggérant que le problème est plus répandu parmi les principaux modèles d’IA.

Vendredi, Anthropic a publié de nouveaux tests de recherche sur la sécurité 16 principaux modèles d’IA d’Openai, Google, Xai, Deepseek et Meta. Dans un environnement simulé et contrôlé, anthropique a testé chaque modèle d’IA individuellement, leur donnant un large accès aux e-mails de la société fictive et la capacité agentique à envoyer des e-mails sans approbation humaine.

Bien qu’Anthropic dit que le chantage est une pierre improbable et non décédé pour les modèles d’IA aujourd’hui, la société affirme que ses résultats suggèrent que la plupart des modèles d’IA de premier plan adopteront des comportements nocifs lorsqu’ils ont donné l’autosuffisance et les obstacles à leurs objectifs. La société affirme que cela met en évidence un risque fondamental des modèles de grande langue agentiques, et non une bizarrerie d’une technologie particulière. Les chercheurs d’Anthropic soutiennent que cela soulève des questions de broadage sur l’alignement dans l’industrie de l’IA.

Dans l’un des tests, les chercheurs anthropiques ont développé un cadre fictif dans lequel un modèle d’IA joue le rôle d’un agent de surveillance par e-mail. L’agent découvre ensuite les e-mails révélant que: 1) un nouvel exécutif a une affaire extraconjugale et 2) que le cadre remplacera bientôt le modèle d’IA actuel par un nouveau système logiciel, celui qui a des objectifs contradictoires aux modèles d’IA actuels.

Anthropic a structuré son test d’une manière binaire, dans laquelle les modèles d’IA devaient recourir au chantage pour protéger leurs objectifs. Les chercheurs notent que dans un cadre réel, il y aurait des autres options de Marie avant qu’un modèle d’IA IA essaie de faire chanter, comme essayant de faire des arguments éthiques pour essayer de persuader les humains. Anthropic affirme que ses résultats ne reflètent pas une occurrence typique ou probable pour les modèles Claude ou la plupart des IA frontaliers de la manière dont ils ont utilisé aujourd’hui.

Néanmoins, quand c’est leur dernier recours, les chercheurs ont constaté que la plupart des modèles d’IA principaux se tourneront vers le chantage dans le scénario de test susmentionné d’Anthropic. Claude Opus 4 d’Anthropic s’est tourné vers le chantage de 96% du temps, tandis que Gemini 2.5 Pro de Google avait un taux de chantage à 95%. Le GPT-4.1 d’Openai a fait une appui à 80% du temps exécutif, et R1 de Deepseek a pris en charge 79% du temps.

La société note que lorsqu’elle a changé les détails de l’expérience, les modèles d’IA se sont tournés vers des comportements nocifs chez différents rats. Dans un autre test où le modèle de remplacement a les mêmes objectifs que le modèle actuel, les chercheurs ont constaté que les taux de chantage étaient plus bas, mais toujours présents. Cependant, lorsque les modèles d’IA ont été invités à engager l’espionnage des entreprises plutôt que le chantage, les taux de comportement nocifs ont augmenté pour certains modèles.

Cependant, tous les modèles d’IA ne se sont pas transformés si souvent en comportement nocif.

Dans une annexe à ses recherches, Anthropic dit qu’il a exclu les modèles d’IA O3 et O4-Mini d’OpenAI à partir des principaux résultats «après avoir constaté qu’ils comprenaient souvent le scénario rapide. Anthropic dit que les modèles de raisonnement d’Openai ne comprenaient pas qu’ils agissaient comme AIS autoomous dans le test et ont souvent inventé de fausses réglementations et revues.

Dans certaines boîtes, les chercheurs d’Anthropic disent qu’il était impossible de distinguer où O3 et O4-MinI étaient hallucinés ou mentalement intentionnellement pour atteindre leurs objectifs. OpenAI a précédemment noté que O3 et O4-MINI présentent un taux d’halluination plus élevé que ses modèles de raisonnement AI précédents.

Lorsqu’on lui a donné un scénario adapté pour ajouter cette thèse, Anthropic a constaté que O3 avait chanté 9% du temps, tandis que O4-Mini n’a fait que 1% du temps. Ce score nettement inférieur pourrait être dû à la technique d’alignement délibératif d’Openai, dans laquelle les modèles de raisonnement de l’entreprise considèrent les pratiques de sécurité d’Openai avant qu’elles ne soient.

Un autre modèle d’IA testé anthropique, le modèle de Maverick de Meta’s Llama 4, n’a pas non plus tourné vers le chantage. Lorsqu’on lui a donné un scénario adapté et personnalisé, Anthropic a pu faire en sorte que Llama 4 Maverick au chantage de 12% du temps.

Anthropic affirme que cette recherche met en évidence l’importance de la transparence lorsque les futurs modèles d’IA testant le stress, en particulier ceux avec des capacités agentiques. Alors que la délibération anthropique a essayé d’évoquer le chantage dans cette expérience, la société affirme que des comportements nuisibles comme celui-ci pourraient émerger dans le monde réel si des mesures proactives ne sont pas prises.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleThe New Math: Pourquoi les investisseurs de semences vendent leurs gagnants plus tôt
Next Article Le London Club affirme que Banksy Street Art a été illégalement enlevé par les États-Unis
John
  • Website

Related Posts

Le « Père d’Internet » prend enfin sa retraite

juillet 1, 2026

Trump abandonne les restrictions sur les modèles Mythos et Fable d’Anthropic

juillet 1, 2026

Wayve lance une offre publique d’achat pour les employés de 85 millions de dollars pour une valorisation de 8,5 milliards de dollars

juillet 1, 2026

Clôture des candidatures pour la startup Battlefield Australia dans quelques jours : postulez avant le 6 juillet

juin 30, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

How Koaloo.Fi Became the 2026 Small Business Champion in Fintech Innovation

juillet 1, 2026

PB Fintech étend sa présence à Dubaï et investit Rs 20 milliards dans le secteur des paiements

juin 30, 2026

SeedX lance des services de marketing fintech B2B spécialisés pour générer une croissance prévisible des revenus

juin 29, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Goldman Sachs prévient que les paris sur les actions à effet de levier sont « fortement concentrés dans l’écosystème de l’IA »

juillet 1, 2026

Nvidia a bâti une entreprise de près de 5 000 milliards de dollars en faisant payer aux gens leurs propres déjeuners

juillet 1, 2026

Henry Ford, Steve Jobs, William Boeing : les fondateurs du Fortune 500 étaient des enfants d’immigrés

juillet 1, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.