Anthropic a publié mardi son dernier modèle Fable, le présentant comme une version publique et limitée de son modèle de cybersécurité puissant et très médiatisé, Mythos.
Mais ces restrictions ne plaisent pas à tout le monde et un certain nombre de chercheurs et de professionnels de la cybersécurité ont déposé des plaintes en ligne.
« (Fable) rejette toute demande qui pourrait être directement liée à la cybersécurité. Même des tâches innocentes comme la lecture d’un article de blog », a déclaré Valentina « Compie » Palmiotti, une chercheuse en sécurité bien connue qui travaille chez IBM X-Force.
Lorsqu’une invite déclenche ses garde-fous, Fable met le chat en pause et déclare que ses « mesures de sécurité ont signalé ce message pour des sujets de cybersécurité ou de biologie ».
Les garde-fous ont été mis en place pour limiter le risque que Fable puisse être utilisé pour développer des logiciels malveillants ou des logiciels compromis – une préoccupation de longue date au sein d’Anthropic. Les restrictions imposées à la biologie découlent d’une préoccupation similaire concernant le développement d’armes biologiques.
Lorsque le géant de l’IA a publié Mythos en avril, il a limité le modèle à un nombre limité d’entreprises et d’organisations dans le cadre de ce qu’il a appelé le projet Glasswing, un effort visant à déployer le modèle pour sécuriser les logiciels et les infrastructures critiques. La semaine dernière, Anthropic a étendu l’accès à Mythos à des centaines d’organisations dans 15 pays.
Mais malgré ces bonnes intentions, de nombreux experts en cybersécurité restent découragés par le caractère aléatoire des restrictions. Matt Suiche, un vétéran de la cybersécurité, a déclaré à TechCrunch que « si vous lui demandez d’écrire du code sécurisé, il suppose qu’il s’agit d’un travail lié à la cybersécurité plutôt que des meilleures pratiques d’ingénierie logicielle, et vous êtes rétrogradé ». Fable est programmé pour revenir à Claude Opus 4.8 s’il heurte un garde-corps. « Cela semble être basé sur des mots clés, donc tout ce qui relève du domaine lexical de la » cybersécurité « déclenche les garde-fous. »
Contactez-nous
Avez-vous plus d’informations sur la manière dont les pirates utilisent l’IA ? Ou comment les entreprises de cybersécurité utilisent-elles l’IA ? Nous aimerions avoir de vos nouvelles. À partir d’un appareil et d’un réseau non professionnels, vous pouvez contacter Lorenzo Franceschi-Bicchierai en toute sécurité sur Signal au +1 917 257 1382, ou via Telegram et Keybase @lorenzofb, ou par e-mail.
« Mais c’est compréhensible car nous n’en sommes qu’à nos débuts et ils sont encore en train d’adapter leurs garde-fous. Je suis sûr qu’ils vont évoluer avec le temps à mesure qu’Anthropic et d’autres entreprises modèles de pointe collaboreront davantage avec la nouvelle génération actuelle d’entreprises de cybersécurité », a déclaré Suiche, membre de l’équipe technique de Tolmo, une startup de cybersécurité par l’IA. « Il vaut mieux attraper plus de gens que pas assez lors d’un tel lâcher et assouplir les garde-fous au fil du temps. »
Un autre chercheur s’est accroché à X qui « même en demandant une révision du code » déclenche les garde-fous de Fable.
Anthropic n’a pas immédiatement répondu à une demande de commentaire.
Outre les garde-fous à l’intérieur de ses modèles, Anthropic exige que les professionnels de la cybersécurité postulent au programme de cybervérification. S’ils sont approuvés, les candidats ont moins de limitations quant à l’utilisation de Claude pour des travaux de cybersécurité. OpenAI dispose d’un programme similaire appelé Trusted Access for Cyber.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

