Anthropic dit que les représentations « maléfiques » de l'IA étaient responsables des tentatives de chantage de Claude

Les représentations fictives de l’intelligence artificielle peuvent avoir un réel effet sur les modèles d’IA, selon Anthropic.

L’année dernière, la société a déclaré que lors des tests préliminaires impliquant une société fictive, Claude Opus 4 tentait souvent de faire chanter les ingénieurs pour éviter d’être remplacé par un autre système. Anthropic a publié plus tard des recherches suggérant que les modèles d’autres sociétés présentaient des problèmes similaires de « désalignement agent ».

Apparemment, Anthropic a travaillé davantage sur ce comportement, affirmant dans un article sur X : « Nous pensons que la source originale de ce comportement était un texte Internet qui décrit l’IA comme diabolique et intéressée par l’auto-préservation. »

La société est entrée plus en détail dans un article de blog déclarant que depuis Claude Haiku 4.5, les modèles d’Anthropic « ne se livrent jamais à du chantage (lors des tests), là où les modèles précédents le faisaient parfois jusqu’à 96 % du temps ».

Qu’est-ce qui explique la différence ? La société a déclaré avoir constaté que la formation sur « des documents sur la constitution de Claude et des histoires fictives sur les IA en cours d’élaboration améliorait admirablement l’alignement ».

Dans le même ordre d’idées, Anthropic a déclaré qu’elle trouvait que la formation était plus efficace lorsqu’elle incluait « les principes qui sous-tendent un comportement aligné » et pas seulement « des démonstrations de comportements alignés uniquement ».

« Faire les deux ensemble semble être la stratégie la plus efficace », a déclaré l’entreprise.

Événement Techcrunch

San Francisco, Californie
|
13-15 octobre 2026

Source link

What's Hot

Les grèves d’Instructure concernent des pirates informatiques qui l’ont violé à deux reprises

Le taux d’inflation a augmenté de 3,8% en avril en raison de la hausse des prix due à la guerre en Iran

L’IA transforme les voitures connectées en machines à détecter les nids-de-poule

Anthropic dit que les représentations « maléfiques » de l’IA étaient responsables des tentatives de chantage de Claude

Les grèves d’Instructure concernent des pirates informatiques qui l’ont violé à deux reprises

L’IA transforme les voitures connectées en machines à détecter les nids-de-poule

La startup vocale AI Vapi atteint une valorisation de 500 millions de dollars après avoir remporté Amazon Ring contre 40 concurrents

Amazon lance la livraison en 30 minutes aux États-Unis

Comment la fintech peut amener les talents numériques africains au monde

Un pionnier de la Fintech lance un partenaire basé sur l’IA pour les professionnels en col blanc afin de lutter contre les perturbations de l’IA

La société fintech britannique Wise fait ses débuts commerciaux aux États-Unis avec une double cotation

Top Insights

Les grèves d’Instructure concernent des pirates informatiques qui l’ont violé à deux reprises

Le taux d’inflation a augmenté de 3,8% en avril en raison de la hausse des prix due à la guerre en Iran

L’IA transforme les voitures connectées en machines à détecter les nids-de-poule

What's Hot

Anthropic dit que les représentations « maléfiques » de l’IA étaient responsables des tentatives de chantage de Claude

Related Posts

Subscribe to Updates