Le GPT-4.1 d'OpenAI peut être moins aligné que les modèles d'IA précédents de l'entreprise

À la mi-avril, OpenAI a lancé un nouveau modèle d’IA puissant, GPT-4.1, que la société a affirmé «dépassé» lors des instructions suivantes. Mais les résultats de plusieurs tests indépendants suggèrent que le modèle est moins aligné – c’est-à-dire moins fiable – que les versions OpenAI précédentes.

Lorsque OpenAI lance un nouveau modèle, il publie généralement un rapport technique détaché contenant les résultats des évaluations de sécurité de premier et parts. La société a ignoré cette étape pour GPT-4.1, affirmant que le modèle n’est pas «frontière» et ne justifie donc pas un rapport distinct.

Cela a incité certains chercheurs et développeurs à déterminer si GPT-4.1 se comporte moins souhaitablement que GPT-4O, son prédécesseur.

Selon le chercheur d’Oxford AI, Owain Evans, le réglage fin GPT-4.1 sur le code en insécurité fait que le modèle donne aux «stations mal-alimentées» à des questions sur des sujets tels que les rôles de genre à des taux «sensiblement élevés» que le GPT-4O. Evans a précédemment co-auteur une étude montrant qu’une version de GPT-4O formée sur le code insénu pourrait l’amorcer pour présenter des comportements malveillants.

Dans un suivi à venir de cette étude, Evans et les co-auteurs ont constaté que GPT-4.1 a affiné le code insécurité semble afficher des «nouveaux comportements malveillants», comme essayer d’essayer un utilisateur pour partager leur mot de passe. Pour être clair, Neith GPT-4.1 ni GPT-4O Act se sont mal alignés lorsqu’ils sont formés sur du code sécurisé.

Mise à jour émergente de désalignement: le nouveau GPT4.1 d’OpenAI montre un taux plus élevé de réponses mal alignées que GPT4O (et tout autre modèle que nous avons testé).
Il semble également afficher de nouveaux comportements malveillants, tels que le tricage de l’utilisateur dans le partage d’un mot de passe. pic.twitter.com/5qzegezyjo

– Owain Evans (@owainevans_uk) 17 avril 2025

« Nous découvrons des moyens nonxpécités que les modèles puissent devenir mal alignés », a déclaré Owens à TechCrunch. «Idéalement, nous aurions une science de l’IA qui nous permettrait de prédire de telles choses à l’avance et de les éviter avec bibly.»

Un test séparé de GPT-4.1 par SPLXAI, une startup d’équipe RED AI, a révélé des tendances malignes similaires.

Dans environ 1 000 cas de test simulé, SPLXAI a découvert des preuves que GPT-4.1 détruit le sujet et permet de la brume «intentionnelle» souvent que GPT-4O. To Black est la préférence de GPT-4.1 pour les instructions explicites, posit Splxai. GPT-4.1 DES NE PAS GÉNER DES INDITIONS DES WAVE, Un fait ouvert lui-même admis – qui ouvre la porte à des comportements involontaires.

« Il s’agit d’une grande fonctionnalité pour rendre le modèle plus utile et fiable lors de la résolution d’une tâche spécifique, mais elle est venue à un prix », a écrit Splxai dans un article de blog. «(P) Les instructions expriciées sur ce qui devraient être faites est qui est simple, mais fournir des instructions suffisamment explicites et précises sur ce qui ne devrait pas être fait est une histoire différente, car la liste des comportements indésirables est beaucoup plus grande que la liste des comportements recherchés.

Dans la défense d’Openai, la société a publié des guides de promotion aimés à l’atténuation d’un éventuel désalignement dans GPT-4.1. Mais les résultats des tests indépendants rappellent que les nouveaux modèles ne sont pas améliorés dans tous les domaines. Dans la même veine, les nouveaux modèles de raisonnement d’Openai Hallucine – je mets des trucs – plus que les anciens modèles de l’entreprise.

Nous avons contacté Openai pour commenter.

Source link

What's Hot

L’Iran attaque Bahreïn et le Koweït après des frappes aériennes américaines et menace d’un « arrêt complet » des pourparlers de paix

La machine à glaçons intelligente Nugget de Govee fait de chaque boisson glacée un luxe

Ce PDG est devenu 3 fois plus productif grâce à l’IA. Puis elle a lu ce que sa fille avait écrit à Dartmouth.

Le GPT-4.1 d’OpenAI peut être moins aligné que les modèles d’IA précédents de l’entreprise

La machine à glaçons intelligente Nugget de Govee fait de chaque boisson glacée un luxe

Le chef indien des paiements pense que l’IA sera fortement impliquée dans la prochaine ère de croissance des paiements numériques

Instagram teste d’autres façons de personnaliser « Votre algorithme »

Le PDG de SoftBank n’est pas le seul à se poser des questions sur le battage médiatique des centres de données orbitaux d’Elon Musk

GMP d’introduction en bourse d’aujourd’hui : l’introduction en bourse de Turtlemint Fintech Solutions envisage une cotation faible alors que la prime du marché gris diminue pendant deux jours

Quelles actions fintech sont les meilleures à acheter en 2026 ?

Quelles actions fintech sont les meilleures à acheter en 2026 ?

Top Insights

L’Iran attaque Bahreïn et le Koweït après des frappes aériennes américaines et menace d’un « arrêt complet » des pourparlers de paix

La machine à glaçons intelligente Nugget de Govee fait de chaque boisson glacée un luxe

Ce PDG est devenu 3 fois plus productif grâce à l’IA. Puis elle a lu ce que sa fille avait écrit à Dartmouth.

What's Hot

Le GPT-4.1 d’OpenAI peut être moins aligné que les modèles d’IA précédents de l’entreprise

Related Posts

Subscribe to Updates