Anthropic a annoncé de nouvelles capacités qui permettra à certains de ses nouveaux modèles les plus récents de mettre fin aux conversations dans ce que l’entreprise décrit comme «des cas rares et extrêmes d’interactions utilisateur et abusives persistantes.
Pour être clair, l’entreprise ne prétend pas que ses modèles Claude AI ressentent ou peuvent être blessés par leurs conversations avec les utilisateurs. Selon ses propres mots, Anthropic reste «très incertain quant au statut moral potentiel de Claude et d’autres LLM, maintenant à l’avenir».
Cependant, son début Annou indique un programme récent créé pour étudier ce qu’il appelle le «bien-être du modèle» et dit que Anthropic adopte essentiellement une approche juste au cas, «travaillant pour identifier et mettre en œuvre des interventions à faible coût pour atténuer les risques pour modéliser le bien-être, au cas où un tel bien-être est possible.
Ce dernier changement est actuellement limité à Claude Opus 4 et 4.1. Et encore une fois, cela ne se produit que dans des «boîtes de bord extrême», telles que «les demandes des utilisateurs de contenu sexuel impliquant des mineurs et tentent de solliciter des informations qui permettraient de violence à grande échelle ou d’actes de terreur.
Bien que ces types de demandes puissent potentiellement créer des problèmes juridiques ou publicitaires pour Anthropic lui-même (témoignent de rapports récents sur la façon dont Chatgpt peut potentiel renforcer ou contribuer à la pensée délirante de ses utilisateurs), la société dit que dans le pré-déploiement, Claude Opus 4 a montré la préférence contre « Répondre à ces demandes et à un » schéma de détresse apparente « lorsqu’il l’a fait.
Quant à ces nouvelles capacités de fin de conversation, la société déclare: «Dans tous les cas, Claude est uniquement pour utiliser la capacité de fin de conversation informatique comme dernier recours lorsque plusieurs tentatives de redirection ont échoué et que le saut d’une interaction productive a été épuisé, ou quand utiliser explicitement Claude de mettre fin à un chat.»
Anthropic dit également que Claude a été «direct de ne pas utiliser cette capacité dans les cas où les utilisateurs pourraient être à risque imminent de nuire à eux-mêmes ou à d’autres».
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
Lorsque Claude met fin à une conversation, Anthropic dit que les utilisateurs pourront toujours commencer de nouvelles conversations à partir du même compte et créer de nouvelles branches de la conversation en modifiant leurs stations.
«Nous traiterons cette fonctionnalité comme une expression NBOIS et continuerons à affiner notre approbation», explique la société.