Anthropic dit que les modèles Seme Claude peuvent désormais mettre fin aux conversations «nuisibles ou abusives»

Anthropic a annoncé de nouvelles capacités qui permettra à certains de ses nouveaux modèles les plus récents de mettre fin aux conversations dans ce que l’entreprise décrit comme «des cas rares et extrêmes d’interactions utilisateur et abusives persistantes.

Pour être clair, l’entreprise ne prétend pas que ses modèles Claude AI ressentent ou peuvent être blessés par leurs conversations avec les utilisateurs. Selon ses propres mots, Anthropic reste «très incertain quant au statut moral potentiel de Claude et d’autres LLM, maintenant à l’avenir».

Cependant, son début Annou indique un programme récent créé pour étudier ce qu’il appelle le «bien-être du modèle» et dit que Anthropic adopte essentiellement une approche juste au cas, «travaillant pour identifier et mettre en œuvre des interventions à faible coût pour atténuer les risques pour modéliser le bien-être, au cas où un tel bien-être est possible.

Ce dernier changement est actuellement limité à Claude Opus 4 et 4.1. Et encore une fois, cela ne se produit que dans des «boîtes de bord extrême», telles que «les demandes des utilisateurs de contenu sexuel impliquant des mineurs et tentent de solliciter des informations qui permettraient de violence à grande échelle ou d’actes de terreur.

Bien que ces types de demandes puissent potentiellement créer des problèmes juridiques ou publicitaires pour Anthropic lui-même (témoignent de rapports récents sur la façon dont Chatgpt peut potentiel renforcer ou contribuer à la pensée délirante de ses utilisateurs), la société dit que dans le pré-déploiement, Claude Opus 4 a montré la préférence contre « Répondre à ces demandes et à un » schéma de détresse apparente « lorsqu’il l’a fait.

Quant à ces nouvelles capacités de fin de conversation, la société déclare: «Dans tous les cas, Claude est uniquement pour utiliser la capacité de fin de conversation informatique comme dernier recours lorsque plusieurs tentatives de redirection ont échoué et que le saut d’une interaction productive a été épuisé, ou quand utiliser explicitement Claude de mettre fin à un chat.»

Anthropic dit également que Claude a été «direct de ne pas utiliser cette capacité dans les cas où les utilisateurs pourraient être à risque imminent de nuire à eux-mêmes ou à d’autres».

Événement TechCrunch

San Francisco
|
27-29 octobre 2025

Lorsque Claude met fin à une conversation, Anthropic dit que les utilisateurs pourront toujours commencer de nouvelles conversations à partir du même compte et créer de nouvelles branches de la conversation en modifiant leurs stations.

«Nous traiterons cette fonctionnalité comme une expression NBOIS et continuerons à affiner notre approbation», explique la société.

Source link

What's Hot

Trump pourrait provoquer une crise financière en Russie – s’il le voulait – mais il s’est retiré de la menace de ses « résultats très sévères »

Anthropic dit que les modèles Seme Claude peuvent désormais mettre fin aux conversations «nuisibles ou abusives»

L’économie tordue de « Rashtock »: certains influenceurs de gage de sororité peuvent payer les frais de scolarité, mais ils fuient la haine et la répulsion en ligne

Anthropic dit que les modèles Seme Claude peuvent désormais mettre fin aux conversations «nuisibles ou abusives»

De la liababilité au leadership: construire un lieu de travail plus sûr

Quels droits les travailleurs blessés ont-ils en vertu des lois sur les blessures maritimes?

Fichiers Gemini de Winklevoss Twins Crypto Company pour l’introduction en bourse

Sam Altman, sur les petits pains, explore la vie après GPT-5

Akemona nommera le vétéran de l’industrie cryptographique Alex de Lorraine en tant que PDG pour accélérer la croissance de l’espace FinTech RWA

Akemona nommera le vétéran de l’industrie cryptographique Alex de Lorraine en tant que PDG pour accélérer la croissance de l’espace FinTech RWA

Programme de surveillance de la ferraille nourri pour la crypto bancaire, activité fintech

Top Insights

Trump pourrait provoquer une crise financière en Russie – s’il le voulait – mais il s’est retiré de la menace de ses « résultats très sévères »

Anthropic dit que les modèles Seme Claude peuvent désormais mettre fin aux conversations «nuisibles ou abusives»

L’économie tordue de « Rashtock »: certains influenceurs de gage de sororité peuvent payer les frais de scolarité, mais ils fuient la haine et la répulsion en ligne

What's Hot

Anthropic dit que les modèles Seme Claude peuvent désormais mettre fin aux conversations «nuisibles ou abusives»

Related Posts

Subscribe to Updates