Les chercheurs de l’IA dans les principaux laboratoires préviennent qu’ils pourraient rapidement perdre leur capacité à comprendre les modèles avancés d’inférence de l’IA.
Dans un article publié la semaine dernière, 40 chercheurs, dont des chercheurs d’Openai, Google Deepmind, Anthropic et Meta, ont appelé à une enquête plus approfondie sur le processus de « pensée » dans les modèles de raisonnement d’IA. Dan Hendrycks de Xai Safety Advisor figure également parmi les auteurs.
Le processus « chaîne » visible dans les modèles d’inférence tels que le GPT-4O d’OpenAI et le R1 de Deepseek permettent aux utilisateurs et aux chercheurs de surveiller le processus « penser » ou « inférence » des modèles d’IA, d’expliquer les décisions d’action ou de répondre et de montrer comment une transparence spécifique peut être fournie au fonctionnement interne du modèle avancé.
« Lorsque ces systèmes d’IA leur permettent de » penser « dans le langage humain, ils peuvent surveiller » l’intention de fraude « , offrant une opportunité unique pour la sécurité de l’IA ». Cependant, ils préviennent que, au fur et à mesure que le modèle continue d’avancer, « rien ne garantit que le niveau de vision actuel durera ».
Cet article souligne que les experts ne comprennent pas pleinement pourquoi ces modèles utilisent du COT ou de la durée de la durée. Les auteurs exhortent les développeurs d’IA à surveiller leur inférence de réflexion plus en détail, suggérant que leur traçabilité pourrait finalement servir de mécanisme de sécurité intégré.
« Comme toutes les autres méthodes de surveillance de l’IA connues, la surveillance du COT (Mind) est incomplète et permet à une fraude de ne pas être consciente. Pourtant, il est prometteur et nous recommandons que des recherches plus approfondies sur la surveillance et l’investissement du COT dans la surveillance du COT, ainsi que les méthodes de sécurité existantes », écrivent les chercheurs.
« La surveillance du COT présente des ajouts précieux aux mesures de sécurité de l’IA frontalière et fournit de rares aperçus dans la façon dont les agents de l’IA prennent des décisions. Cependant, il n’y a aucune garantie que la visibilité actuelle durera. La communauté de recherche et les développeurs d’IA frontière les encouragent à tirer le meilleur parti de la surveillance du COT et à étudier comment ils peuvent être conservés », a-t-il ajouté.
Le journal a été approuvé par des personnalités de premier plan, notamment les co-fondateurs d’Openai Ilya Sutskever et le parrain de l’AI Geoffrey Hinton.
Modèle d’inférence
Les modèles d’inférence AI sont un type de modèle d’IA conçu pour simuler ou reproduire l’inférence de type humain, tel que la capacité de tirer des conclusions, de prendre des décisions et de résoudre des problèmes en fonction des informations, de la logique ou des modèles d’apprentissage. Les progrès du raisonnement de l’IA sont considérés comme les clés des progrès de l’IA parmi les grandes sociétés de haute technologie, et la plupart investissent dans la construction et la mise à l’échelle de ces modèles.
OpenAI a publié un aperçu de son premier modèle d’inférence AI, O1, en septembre 2024, avec des concurrents tels que Xai et Google continuant sur Close Beacht.
Cependant, il y a encore de nombreuses questions sur le fonctionnement de ces modèles avancés. Certaines études suggèrent que les modèles d’inférence peuvent même induire les utilisateurs induits en erreur grâce à des processus de chaîne conçus.
Bien qu’il ait fait un énorme saut de performance au cours de la dernière année, AI Labs sait étonnamment peu de choses sur le fait que le raisonnement se déroule réellement dans le modèle. Bien que la sortie soit améliorée, les mécanismes internes des modèles avancés deviennent de plus en plus opaques, et il existe un risque d’élever des problèmes de sécurité et de contrôle.