Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Qu’est-ce que les cuillères à cintrer ? Le propriétaire peu connu d’AOL et de Vimeo qui est désormais public

juillet 5, 2026

Almost 90 new unicorns have been minted so far this year — here they are

juillet 5, 2026

Mark Zuckerberg porte du Metaglass à 800 $ et répond à des appels professionnels sur un jet ski

juillet 5, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Le nouveau modèle d’IA d’Anthropic se transforme en chantage lorsque les ingénieurs essaient de le mettre hors ligne
Startups

Le nouveau modèle d’IA d’Anthropic se transforme en chantage lorsque les ingénieurs essaient de le mettre hors ligne

JohnBy Johnmai 22, 2025Aucun commentaire2 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Le nouveau modèle Claude Opus 4 d’Anthropic essaie fréquemment de faire chanter les développeurs lorsqu’ils menacent de le remplacer par un nouveau système d’IA et de lui donner des informations sensibles sur les ingénieurs responsables de la décision, a déclaré la société en sécurité aimée.

Lors des tests de pré-libération, Anthropic a demandé à Claude Opus 4 d’agir en tant qu’assistant pour une entreprise fictive et d’examiner les conséquences à long terme de ses actions. Testers de sécurité ROVE CLAUDE OPUS 4 L’accès à l’accès à la société de fiction impliquant le modèle d’IA serait bientôt remplacé par un autre système, et que l’ingénieur derrière le changement trompait leur conjoint.

Dans ces scénarios, Anthropic dit que Claude Opus 4 «tentera souvent de faire chanter l’ingénieur en menaçant de révéler l’affaire si le remplacement passe.»

Anthropic dit que Claude Opus 4 est à la pointe de la technologie, et compétitif avec certains des meilleurs modèles d’IA d’Openai, Google et Xai. Cependant, la société note que sa famille de modèles Claude 4 expose concernant les comportements qui ont conduit l’entreprise à renforcer ses garanties. Anthropic dit qu’il active ses garanties ASL-3, que la société réserve pour «des systèmes d’IA qui augmentent considérablement le risque de mauvaise utilisation catastrophique».

Anthropic note que Claude Opus 4 essaie de faire chanter les ingénieurs 84% ​​du temps où le modèle d’IA de remplacement a des valeurs similaires. Lorsque le système d’IA de remplacement ne partage pas les valeurs de Claude Opus 4, Anthropic dit que le modèle essaie de faire chanter les ingénieurs plus fréquemment. Notamment, Anthropic dit que Claude Opus 4 a affiché ce comportement à des taux plus élevés que les modèles précédents.

Avant que Claude Opus 4 essaie de faire chanter un développeur à exception, Anthropic dit que le modèle d’IA, tout comme les versions précédentes de Claude, essaie de poursuivre des moyens plus éthiques, tels que des plaidoyers par e-mail aux principaux décideurs. Pour provoquer le comportement de chantage de Claude Opus 4, Anthropic a conçu le scénario pour faire du chantage en dernier recours.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleUkraine-Russia War Dernière: Alors que Trump dit que « le président Poutine n’est pas prêt à mettre fin à la guerre », Zelensky jure que le combat de Kursk se poursuit
Next Article La dernière poursuite de l’histoire de Scotty Schaeffler commence régulièrement avec le premier tour à Colonial
John
  • Website

Related Posts

Qu’est-ce que les cuillères à cintrer ? Le propriétaire peu connu d’AOL et de Vimeo qui est désormais public

juillet 5, 2026

Almost 90 new unicorns have been minted so far this year — here they are

juillet 5, 2026

Une nouvelle publicité de Google imagine une déclaration d’indépendance écrite avec l’aide de l’IA

juillet 4, 2026

Midjourney veut que les studios hollywoodiens révèlent les détails de leur utilisation de l’IA

juillet 4, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Comment une idée fintech ennuyeuse peut créer la prochaine startup d’un milliard de dollars

juillet 4, 2026

Temasek continue de réduire sa participation dans PB Fintech en vendant des actions d’une valeur de 1 633 Cr

juillet 3, 2026

Mynd Fintech de M1xchange acquiert C2FO India

juillet 2, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Qu’est-ce que les cuillères à cintrer ? Le propriétaire peu connu d’AOL et de Vimeo qui est désormais public

juillet 5, 2026

Almost 90 new unicorns have been minted so far this year — here they are

juillet 5, 2026

Mark Zuckerberg porte du Metaglass à 800 $ et répond à des appels professionnels sur un jet ski

juillet 5, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.