Le nouveau modèle Claude Opus 4 d’Anthropic essaie fréquemment de faire chanter les développeurs lorsqu’ils menacent de le remplacer par un nouveau système d’IA et de lui donner des informations sensibles sur les ingénieurs responsables de la décision, a déclaré la société en sécurité aimée.
Lors des tests de pré-libération, Anthropic a demandé à Claude Opus 4 d’agir en tant qu’assistant pour une entreprise fictive et d’examiner les conséquences à long terme de ses actions. Testers de sécurité ROVE CLAUDE OPUS 4 L’accès à l’accès à la société de fiction impliquant le modèle d’IA serait bientôt remplacé par un autre système, et que l’ingénieur derrière le changement trompait leur conjoint.
Dans ces scénarios, Anthropic dit que Claude Opus 4 «tentera souvent de faire chanter l’ingénieur en menaçant de révéler l’affaire si le remplacement passe.»
Anthropic dit que Claude Opus 4 est à la pointe de la technologie, et compétitif avec certains des meilleurs modèles d’IA d’Openai, Google et Xai. Cependant, la société note que sa famille de modèles Claude 4 expose concernant les comportements qui ont conduit l’entreprise à renforcer ses garanties. Anthropic dit qu’il active ses garanties ASL-3, que la société réserve pour «des systèmes d’IA qui augmentent considérablement le risque de mauvaise utilisation catastrophique».
Anthropic note que Claude Opus 4 essaie de faire chanter les ingénieurs 84% du temps où le modèle d’IA de remplacement a des valeurs similaires. Lorsque le système d’IA de remplacement ne partage pas les valeurs de Claude Opus 4, Anthropic dit que le modèle essaie de faire chanter les ingénieurs plus fréquemment. Notamment, Anthropic dit que Claude Opus 4 a affiché ce comportement à des taux plus élevés que les modèles précédents.
Avant que Claude Opus 4 essaie de faire chanter un développeur à exception, Anthropic dit que le modèle d’IA, tout comme les versions précédentes de Claude, essaie de poursuivre des moyens plus éthiques, tels que des plaidoyers par e-mail aux principaux décideurs. Pour provoquer le comportement de chantage de Claude Opus 4, Anthropic a conçu le scénario pour faire du chantage en dernier recours.

