Les représentations fictives de l’intelligence artificielle peuvent avoir un réel effet sur les modèles d’IA, selon Anthropic.
L’année dernière, la société a déclaré que lors des tests préliminaires impliquant une société fictive, Claude Opus 4 tentait souvent de faire chanter les ingénieurs pour éviter d’être remplacé par un autre système. Anthropic a publié plus tard des recherches suggérant que les modèles d’autres sociétés présentaient des problèmes similaires de « désalignement agent ».
Apparemment, Anthropic a travaillé davantage sur ce comportement, affirmant dans un article sur X : « Nous pensons que la source originale de ce comportement était un texte Internet qui décrit l’IA comme diabolique et intéressée par l’auto-préservation. »
La société est entrée plus en détail dans un article de blog déclarant que depuis Claude Haiku 4.5, les modèles d’Anthropic « ne se livrent jamais à du chantage (lors des tests), là où les modèles précédents le faisaient parfois jusqu’à 96 % du temps ».
Qu’est-ce qui explique la différence ? La société a déclaré avoir constaté que la formation sur « des documents sur la constitution de Claude et des histoires fictives sur les IA en cours d’élaboration améliorait admirablement l’alignement ».
Dans le même ordre d’idées, Anthropic a déclaré qu’elle trouvait que la formation était plus efficace lorsqu’elle incluait « les principes qui sous-tendent un comportement aligné » et pas seulement « des démonstrations de comportements alignés uniquement ».
« Faire les deux ensemble semble être la stratégie la plus efficace », a déclaré l’entreprise.
Événement Techcrunch
San Francisco, Californie
|
13-15 octobre 2026

