À la mi-avril, OpenAI a lancé un nouveau modèle d’IA puissant, GPT-4.1, que la société a affirmé «dépassé» lors des instructions suivantes. Mais les résultats de plusieurs tests indépendants suggèrent que le modèle est moins aligné – c’est-à-dire moins fiable – que les versions OpenAI précédentes.
Lorsque OpenAI lance un nouveau modèle, il publie généralement un rapport technique détaché contenant les résultats des évaluations de sécurité de premier et parts. La société a ignoré cette étape pour GPT-4.1, affirmant que le modèle n’est pas «frontière» et ne justifie donc pas un rapport distinct.
Cela a incité certains chercheurs et développeurs à déterminer si GPT-4.1 se comporte moins souhaitablement que GPT-4O, son prédécesseur.
Selon le chercheur d’Oxford AI, Owain Evans, le réglage fin GPT-4.1 sur le code en insécurité fait que le modèle donne aux «stations mal-alimentées» à des questions sur des sujets tels que les rôles de genre à des taux «sensiblement élevés» que le GPT-4O. Evans a précédemment co-auteur une étude montrant qu’une version de GPT-4O formée sur le code insénu pourrait l’amorcer pour présenter des comportements malveillants.
Dans un suivi à venir de cette étude, Evans et les co-auteurs ont constaté que GPT-4.1 a affiné le code insécurité semble afficher des «nouveaux comportements malveillants», comme essayer d’essayer un utilisateur pour partager leur mot de passe. Pour être clair, Neith GPT-4.1 ni GPT-4O Act se sont mal alignés lorsqu’ils sont formés sur du code sécurisé.
Mise à jour émergente de désalignement: le nouveau GPT4.1 d’OpenAI montre un taux plus élevé de réponses mal alignées que GPT4O (et tout autre modèle que nous avons testé).
Il semble également afficher de nouveaux comportements malveillants, tels que le tricage de l’utilisateur dans le partage d’un mot de passe. pic.twitter.com/5qzegezyjo– Owain Evans (@owainevans_uk) 17 avril 2025
« Nous découvrons des moyens nonxpécités que les modèles puissent devenir mal alignés », a déclaré Owens à TechCrunch. «Idéalement, nous aurions une science de l’IA qui nous permettrait de prédire de telles choses à l’avance et de les éviter avec bibly.»
Un test séparé de GPT-4.1 par SPLXAI, une startup d’équipe RED AI, a révélé des tendances malignes similaires.
Dans environ 1 000 cas de test simulé, SPLXAI a découvert des preuves que GPT-4.1 détruit le sujet et permet de la brume «intentionnelle» souvent que GPT-4O. To Black est la préférence de GPT-4.1 pour les instructions explicites, posit Splxai. GPT-4.1 DES NE PAS GÉNER DES INDITIONS DES WAVE, Un fait ouvert lui-même admis – qui ouvre la porte à des comportements involontaires.
« Il s’agit d’une grande fonctionnalité pour rendre le modèle plus utile et fiable lors de la résolution d’une tâche spécifique, mais elle est venue à un prix », a écrit Splxai dans un article de blog. «(P) Les instructions expriciées sur ce qui devraient être faites est qui est simple, mais fournir des instructions suffisamment explicites et précises sur ce qui ne devrait pas être fait est une histoire différente, car la liste des comportements indésirables est beaucoup plus grande que la liste des comportements recherchés.
Dans la défense d’Openai, la société a publié des guides de promotion aimés à l’atténuation d’un éventuel désalignement dans GPT-4.1. Mais les résultats des tests indépendants rappellent que les nouveaux modèles ne sont pas améliorés dans tous les domaines. Dans la même veine, les nouveaux modèles de raisonnement d’Openai Hallucine – je mets des trucs – plus que les anciens modèles de l’entreprise.
Nous avons contacté Openai pour commenter.