Les chercheurs d’OpenAI disent avoir découvert des caractéristiques cachées à l’intérieur des modèles d’IA qui correspond à des «personnages» mal alignés, selon de nouvelles recherches publiées par la société mercredi.
En examinant les représentations internes d’un modèle d’IA – les nombres qui dictent comment un modèle d’IA réagit, qui semble souvent complètement incohérent aux humains – les chercheurs OpenAI ont pu trouver des modèles qui se sont allumés lorsqu’un modèle s’est mal comporté.
Les chercheurs ont trouvé une telle caractéristique qui correspond à un comportement toxique dans les responsabilités d’un modèle d’IA – le fait que le modèle d’IA donnerait des stations mal alignées, telles que mentir aux utilisateurs ou l’irresponsion.
Les chercheurs ont découvert qu’ils avaient pu augmenter ou vers le bas en ajustant la fonctionnalité.
Les dernières recherches d’Openai donnent à l’entreprise une meilleure compréhension des facteurs qui peuvent rendre les modèles d’IA à agir dangereux et, par conséquent, pourraient les aider à développer des modèles d’IA plus sûrs. OpenAI pourrait potentiellement utiliser les modèles qu’il a trouvé pour mieux détecter le désalignement dans les modèles de production d’IA, selon le chercheur d’interprétation d’Openai, Dan Mossing.
« Nous sommes en train de sauter que les outils que nous avons lus – comme cette capacité à réduire un phénomène compliqué à une opération mathématique simple – nous aideront également à généraliser le modèle à d’autres endroits », a déclaré Mossing dans une interview avec TechCrunch.
Les chercheurs d’IA savent comment améliorer les modèles d’IA, mais avec confusion, ils comprennent parfaitement comment les modèles d’IA arrivent à leurs réponses – Chris Olah d’Anthropic, souvent Nosten Nemoiks, que les modèles d’IA sont cultivés plus que ce qui est construit. Openai, Google Deepmind et Anthropic investissent davantage dans la recherche d’interprétabilité – un domaine qui essaie d’ouvrir la boîte noire du fonctionnement des modèles d’IA – pour résoudre ce problème.
Une étude récente du chercheur d’Oxford AI, Owain Evans, a soulevé de nouvelles questions sur la façon dont les modèles d’IA généralisent. La recherche a révélé que les modèles d’Openai pourraient être affinés sur le code insécurité et afficheraient ensuite des comportements malveillants dans une variété de domaines, comme essayer d’essayer un utilisateur pour partager son mot de passe. Le phénomène est réduit comme un désalignement émergent, et l’étude d’Evans a inspiré OpenAI pour explorer cela davantage.
Mais dans le processus d’étude du désalignement émergent, Openai dit qu’il tombe sur des caractéristiques à l’intérieur des modèles d’IA qui semblent jouer un rôle important dans le contrôle du comportement. Le mossage dit que ces modèles rappellent l’activité du cerveau interne chez l’homme, dans lequel certains neurones sont en corrélation avec les humeurs ou les comportements.
« Lorsque Dan et Team ont précédé cela lors d’une réunion de recherche, je me disais: » Wow, vous l’avez trouvé « », a déclaré Tejal Patwardhan, chercheur d’Openai Frontier Evaluations, dans une interview avec TechCrunch. « Vous avez trouvé comme une activation neuronale interne qui les montre et que vous pouvez réellement diriger pour rendre le modèle plus aligné. »
Certaines caractéristiques Openai ont trouvées corrélées avec le sarcasme dans les tenants du modèle d’IA, tandis que d’autres caractéristiques sont en corrélation avec des stations plus toxiques dans lesquelles un modèle d’IA agit comme un méchant caricatural et maléfique. Les chercheurs d’OpenAI disent qu’il y a des caractéristiques qui peuvent changer considérablement pendant le processus de réglage fin.
Remarque, les chercheurs d’Openai ont déclaré que ce qui émerge le désalignement extérieur, il était possible de ramener le modèle vers un bon comportement en affinant le modèle sur quelques exemples de code sécurisé.
Les dernières recherches d’Openai s’appuient sur les travaux précédents qu’Anthropic a effectués sur l’interprétabilité et l’alignement. En 2024, Anthropic a publié des recherches qui ont essayé de cartographier le fonctionnement interne des modèles d’IA, essayant d’épingler et d’étiqueter diverses fonctionnalités qui étaient responsables de différents concepts.
Des entreprises comme Openai et Anthropic prouvent qu’il y a une réelle valeur à comprendre le fonctionnement des modèles d’IA, et pas seulement les améliorer. Cependant, il y a un long chemin à parcourir pour bien comprendre les modèles d’IA modernes.