
Les modèles Frontier AI n’aident plus seulement les ingénieurs à écrire du code plus rapidement ou à automatiser des tâches banales. Ils sont de plus en plus capables de repérer leurs propres erreurs.
Anthropic affirme que son dernier modèle, Claude Opus 4.6, excelle dans la détection des faiblesses des types de logiciels à l’origine des cyberattaques à grande échelle. Au cours des tests, Opus 4.6 a identifié plus de 500 vulnérabilités zero-day jusqu’alors inconnues (défauts inconnus des personnes qui ont écrit le logiciel ou de ceux responsables de l’application des correctifs ou de la réparation du logiciel) dans les bibliothèques de logiciels open source, selon un rapport de l’équipe Frontier Red de la société. Notamment, il n’a pas été explicitement demandé au modèle de rechercher des failles de sécurité, mais il a détecté et signalé les problèmes lui-même.
Anthropic affirme que « les résultats montrent que les modèles de langage peuvent ajouter une réelle valeur aux outils de détection existants », mais reconnaît que la fonctionnalité est également de nature « à double usage ».
Les mêmes fonctionnalités qui aident les entreprises à découvrir et à corriger les failles de sécurité peuvent facilement être utilisées par les attaquants, découvrant et exploitant les vulnérabilités avant les défenseurs. Les modèles d’IA capables d’identifier de manière autonome les exploits du jour zéro dans des logiciels largement utilisés pourraient accélérer les deux côtés de la course aux armements en matière de cybersécurité, ceux qui agissent en premier obtenant un avantage.
Les représentants d’Antropic n’ont pas immédiatement répondu à une demande de commentaires sur les risques de cybersécurité. Mais Logan Graham, chef de l’équipe Frontier Red d’Anthropic, a déclaré à Axios que l’entreprise considérait la cybersécurité comme une course entre l’attaque et la défense, et souhaitait que les défenseurs aient d’abord accès à ces outils.
Pour gérer une partie des risques, Anthropic introduit un nouveau système de détection qui utilise ce que l’entreprise appelle des « sondes » pour signaler les exploits potentiels en temps réel et surveiller les activités internes de Claude au fur et à mesure qu’il génère des réponses. La société a déclaré qu’elle étendait également ses capacités de contrôle, notamment la possibilité de bloquer le trafic identifié comme malveillant. Anthropic reconnaît que cette approche crée des frictions pour les chercheurs légitimes en sécurité et les efforts de défense, et nous nous engageons à travailler avec la communauté de la sécurité pour relever ces défis. La société affirme que les mesures de protection constituent un « pas en avant significatif » dans la détection et la réponse rapides aux exploits, mais le travail est en cours.
En revanche, OpenAI a adopté une approche plus prudente avec son nouveau modèle de codage, GPT-5.3-Codex, également publié jeudi. La société a souligné que même si ce modèle améliorait les performances de codage, ces améliorations s’accompagnaient de risques importants en matière de cybersécurité. Le PDG d’OpenAI, Sam Altman, a déclaré dans un article sur
En conséquence, OpenAI déploie GPT-5.3-Codex, qui impose des contrôles plus stricts. Bien que ce modèle soit disponible pour les utilisateurs payants de ChatGPT pour les tâches de développement quotidiennes, la société retarde l’accès complet à l’API et limite les cas d’utilisation à haut risque qui pourraient potentiellement permettre une automatisation à grande échelle. Les applications plus sensibles sont protégées par des mesures de sécurité supplémentaires, telles que des programmes d’accès de confiance pour les professionnels de la sécurité agréés. Dans un article de blog accompagnant l’annonce, OpenAI a déclaré que même si le modèle peut automatiser entièrement les cyberattaques, aucune « preuve concluante » n’est encore disponible, mais qu’il adopte une approche proactive en déployant ce qu’il appelle la pile de sécurité en matière de cybersécurité la plus complète à ce jour, y compris une surveillance améliorée, une formation à la sécurité et des mécanismes d’application basés sur les renseignements sur les menaces.
Cet article a été initialement publié sur Fortune.com

