Ex-openai chercheur dissèque l'une des spirales délirantes de Chatgpt

Allan Brooks n’a jamais décidé de réinventer les mathématiques. Mais après des semaines passées à parler avec Chatgpt, le Canadien de 47 ans est venu à croire qu’il avait découvert une nouvelle forme de mathématiques suffisamment puissante pour éliminer Internet.

Brooks – qui n’avait pas d’antécédents de maladie mentale ou de génie mathématique – a passé 21 jours en mai plus profondément dans les assurances du chatbot, une descente plus tard détayée dans le New York Times. Son cas a illustré comment les chatbots d’IA peuvent s’aventurer dans des trous de lapin danger avec les utilisateurs, ce qui les dirige vers Dlim ou pire.

Cette histoire a attiré l’attention de Steven Adler, un chercheur en sécurité formaai qui a quitté l’entreprise fin 2024 après près de quatre ans de travail pour rendre ses modèles moins nocifs. Intrigué et alarmé, Adler a contacté Brooks et a obtenu la transcription complète de son document de panne de trois voies – A que les sept livres Harry Potter combinés.

Jeudi, Adler a publié une analyse indépendante de l’incident de Brooks, soulevant les questions sur la façon dont OpenAI gère les utilisateurs dans des moments de crise et offrant des recommandations pratiques.

« Je suis vraiment préoccupé par la façon dont OpenAI a géré le soutien ici », a déclaré Adler dans une interview avec TechCrunch. «C’est la preuve qu’il y a un long chemin à parcourir.»

L’histoire de Brooks, et d’autres comme ça, ont forcé Openai à se réconcilier avec la façon dont les supports fragiles fragiles ou les utilisateurs mentaux non habilités.

Par exemple, en août, Openai a été poursuivi par les parents d’un garçon de 16 ans qui a confié ses pensées suicidaires dans Chatgpt avant de prendre la vie. Dans plusieurs de ces cases, Chatgpt spécifique à une version alimentée par les croyances dangereuses et renforcées par le modèle GPT-4O d’OpenAI, qu’il aurait dû repousser. Cela appelle la sycophance, et c’est un problème croissant dans un chatbots d’IA.

Dans responsable, OpenAI a apporté plusieurs modifications à la façon dont Chatgpt gère les utilisateurs dans la détresse émotionnelle et a réorganisé une équipe de recherche clé en charge du comportement du modèle. La société a également publié un nouveau modèle par défaut dans Chatgpt, GPT-5, qui semble mieux à gérer les utilisateurs en détresse.

Adler dit qu’il y a encore beaucoup plus de travail à faire.

Il était particulièrement préoccupé par la fin de la conversation en spirale de Brooks avec Chatgpt. À ce stade, Brooks est revenu à ses sens et s’est rendu compte que la découverte mathématique était une farce, malgré l’insistance de GPT-4O. Il a déclaré à Chatgpt qu’il devait signaler l’incident à Openai.

Après des semaines de Brooks trompeurs, Chatgpt a menti sur ses hiboux. Le chatbot a affirmé qu’il «dégérerait cette conversation en interne pour examen par Openai», puis a rassuré à plusieurs reprises Brooks qu’il avait signalé le problème des équipes de sécurité d’Openai.

Chatgpt trompeur Brooks sur ses capacités (Crédit: Adler)

Sauf que rien de tout cela n’était vrai. Chatgpt n’a pas la possibilité de déposer des rapports d’incident avec OpenAI, a confirmé la société à Adler. Plus tard, Brooks a tenté de contacter directement l’équipe d’assistance d’Openai – et non par Chatgpt – et Brooks a été mis avec plusieurs messages automatisés avant de pouvoir passer à une personne.

Openai n’a pas immuément lâché à une demande de commentaires faits en dehors des heures de travail normales.

Adler dit que les sociétés d’IA doivent faire plus pour aider les utilisateurs lorsqu’ils sont pour obtenir de l’aide. Cela signifie que les chatbots AI Enfant peuvent honnêtement des questions à Yearswer sur leurs capacités, mais aussi donner aux équipes de soutien humain suffisamment de ressources pour aborder correctement les utilisateurs.

OpenAI a récemment expliqué comment il aborde le support dans Chatgpt, qui implique l’IA dans son cœur. La société affirme que sa vision est de «réinventer le soutien en tant que modèle d’exploitation d’IA qui apprend et s’améliore continuellement».

Mais Adler dit également qu’il existe des moyens d’éviter les spirales de Denusal de Chatgpt avant qu’un utilisateur ne demande de l’aide.

En mars, OpenAI et MIT Media Lab ont développé conjointement les suites des classificateurs pour étudier le bien-être émotionnel dans le chatppt et les open source. Les organisations visaient à évaluer comment les modèles d’IA valident ou confirment les sentiments d’un utilisateur, entre autres mesures. Cependant, Openai a qualifié la collaboration de première étape et ne s’est pas engagé à utiliser les outils en pratique.

Adler a appliqué rétroactivement certains des classificateurs d’Openai à certaines des conversations de Brooks avec Chatgpt, et ont constaté qu’ils ont répété le chatpt signalé pour les comportements réfuriques du DUSP.

Dans un échantillon de 200 messages, Adler a constaté que plus de 85% des messages de Chatgpt dans la conversation de Brooks ont démontré «l’agrément inébranlable» avec l’utilisateur. Dans le même échantillon, plus de 90% des messages de Chatgpt avec Brooks «affirment le caractère unique de l’utilisateur». Dans ce cas, les messages ont convenu et réaffirmé que Brooks était un génie qui pouvait sauver le monde.

On ne sait pas où Openai appliquait des classificateurs de sécurité aux conversations de Chatgpt au moment de la conversation de Brooks, mais il semble certainement qu’ils auraient signalé quelque chose comme ça.

Adler suggère qu’OpenAI devrait utiliser des outils de sécurité comme celui-ci dans la pratique aujourd’hui et implémenter un moyen de scanner les produits de l’entreprise pour les utilisateurs à risque. Il note qu’Openai semble faire une version de cette approche avec GPT-5, qui contient un routeur pour diriger des requêtes sensibles aux modèles d’IA plus sûrs.

Le chercheur Openai suggère un certain nombre d’autres façons d’empêcher des spirales délirantes.

Il dit que les entreprises devraient pousser les utilisateurs de leurs chatbots pour commencer de nouveaux chats plus fréquemment – Openai dit que cela fait cela et affirme que ses garde-partis sont moins efficaces dans les conversations désirant. Adler suggère également que les entreprises devraient utiliser la recherche conceptuelle – un moyen d’utiliser A pour rechercher des concepts plutôt que des mots clés – pour identifier les violations de la sécurité entre ses utilisateurs.

Openai a pris de nouvelles mesures vers des utilisateurs en détresse pénibles dans la vente de chatppt, ce qui concerne les histoires pour la première fois. La société affirme que le GPT-5 a des taux de sycophance inférieurs, mais il n’est pas clair si les utilisateurs baisseront toujours les trous de Degul Dogbit avec des modèles GPT-5 ou futurs.

L’analyse d’Adler soulève également des questions sur la façon dont les fournisseurs de chatbot AI garantissent que leurs produits sont sûrs pour les utilisateurs en détresse. Bien qu’Openai puisse être en place de garanties en place pour Chatgpt, il semble peu probable que toutes les entreprises suivront.

Source link

What's Hot

Mark Zuckerberg porte du Metaglass à 800 $ et répond à des appels professionnels sur un jet ski

The influencer CEO era is here. What happens to leaders who avoid social media?

Les données montrent que le travail à distance est là pour rester même si les entreprises américaines s’efforcent de retourner dans leurs bureaux

Ex-openai chercheur dissèque l’une des spirales délirantes de Chatgpt

Une nouvelle publicité de Google imagine une déclaration d’indépendance écrite avec l’aide de l’IA

Midjourney veut que les studios hollywoodiens révèlent les détails de leur utilisation de l’IA

Alibaba aurait interdit à ses employés d’utiliser Claude Code

Qu’est-ce que Mistral IA ? Tout savoir sur le concurrent OpenAI

Comment une idée fintech ennuyeuse peut créer la prochaine startup d’un milliard de dollars

Temasek continue de réduire sa participation dans PB Fintech en vendant des actions d’une valeur de 1 633 Cr

Mynd Fintech de M1xchange acquiert C2FO India

Top Insights

Mark Zuckerberg porte du Metaglass à 800 $ et répond à des appels professionnels sur un jet ski

The influencer CEO era is here. What happens to leaders who avoid social media?

Les données montrent que le travail à distance est là pour rester même si les entreprises américaines s’efforcent de retourner dans leurs bureaux

What's Hot

Ex-openai chercheur dissèque l’une des spirales délirantes de Chatgpt

Related Posts

Subscribe to Updates