Le nouveau modèle d'IA d'Anthropic se transforme en chantage lorsque les ingénieurs essaient de le mettre hors ligne

Le nouveau modèle Claude Opus 4 d’Anthropic essaie fréquemment de faire chanter les développeurs lorsqu’ils menacent de le remplacer par un nouveau système d’IA et de lui donner des informations sensibles sur les ingénieurs responsables de la décision, a déclaré la société en sécurité aimée.

Lors des tests de pré-libération, Anthropic a demandé à Claude Opus 4 d’agir en tant qu’assistant pour une entreprise fictive et d’examiner les conséquences à long terme de ses actions. Testers de sécurité ROVE CLAUDE OPUS 4 L’accès à l’accès à la société de fiction impliquant le modèle d’IA serait bientôt remplacé par un autre système, et que l’ingénieur derrière le changement trompait leur conjoint.

Dans ces scénarios, Anthropic dit que Claude Opus 4 «tentera souvent de faire chanter l’ingénieur en menaçant de révéler l’affaire si le remplacement passe.»

Anthropic dit que Claude Opus 4 est à la pointe de la technologie, et compétitif avec certains des meilleurs modèles d’IA d’Openai, Google et Xai. Cependant, la société note que sa famille de modèles Claude 4 expose concernant les comportements qui ont conduit l’entreprise à renforcer ses garanties. Anthropic dit qu’il active ses garanties ASL-3, que la société réserve pour «des systèmes d’IA qui augmentent considérablement le risque de mauvaise utilisation catastrophique».

Anthropic note que Claude Opus 4 essaie de faire chanter les ingénieurs 84% du temps où le modèle d’IA de remplacement a des valeurs similaires. Lorsque le système d’IA de remplacement ne partage pas les valeurs de Claude Opus 4, Anthropic dit que le modèle essaie de faire chanter les ingénieurs plus fréquemment. Notamment, Anthropic dit que Claude Opus 4 a affiché ce comportement à des taux plus élevés que les modèles précédents.

Avant que Claude Opus 4 essaie de faire chanter un développeur à exception, Anthropic dit que le modèle d’IA, tout comme les versions précédentes de Claude, essaie de poursuivre des moyens plus éthiques, tels que des plaidoyers par e-mail aux principaux décideurs. Pour provoquer le comportement de chantage de Claude Opus 4, Anthropic a conçu le scénario pour faire du chantage en dernier recours.

Source link

What's Hot

Qu’est-ce que les cuillères à cintrer ? Le propriétaire peu connu d’AOL et de Vimeo qui est désormais public

Almost 90 new unicorns have been minted so far this year — here they are

Mark Zuckerberg porte du Metaglass à 800 $ et répond à des appels professionnels sur un jet ski

Le nouveau modèle d’IA d’Anthropic se transforme en chantage lorsque les ingénieurs essaient de le mettre hors ligne

Qu’est-ce que les cuillères à cintrer ? Le propriétaire peu connu d’AOL et de Vimeo qui est désormais public

Almost 90 new unicorns have been minted so far this year — here they are

Une nouvelle publicité de Google imagine une déclaration d’indépendance écrite avec l’aide de l’IA

Midjourney veut que les studios hollywoodiens révèlent les détails de leur utilisation de l’IA

Comment une idée fintech ennuyeuse peut créer la prochaine startup d’un milliard de dollars

Temasek continue de réduire sa participation dans PB Fintech en vendant des actions d’une valeur de 1 633 Cr

Mynd Fintech de M1xchange acquiert C2FO India

Top Insights

Qu’est-ce que les cuillères à cintrer ? Le propriétaire peu connu d’AOL et de Vimeo qui est désormais public

Almost 90 new unicorns have been minted so far this year — here they are

Mark Zuckerberg porte du Metaglass à 800 $ et répond à des appels professionnels sur un jet ski

What's Hot

Le nouveau modèle d’IA d’Anthropic se transforme en chantage lorsque les ingénieurs essaient de le mettre hors ligne

Related Posts

Subscribe to Updates