Les chercheurs d’IA d’OpenAI, Google Deepmind, anthropic et une large coalition d’entreprises et de groupes à but non lucratif appellent à une enquête plus approfondie sur les techniques de surveillance des pensées dites des modèles de raisonnement d’IA dans un article de position publié.
Une caractéristique clé des modèles de raisonnement d’IA, telles que l’O3 et le R1 de Deepseek, sont leurs chaînes de réflexion ou COTS-un processus externalisé dans lequel les modèles d’IA fonctionnent à travers des problèmes, similaire à la façon dont les humains utilisent un pavé à gratter pour fonctionner à travers un difficile. Les modèles de raisonnement sont une technologie de base pour alimenter les agents de l’IA, et les auteurs du document soutiennent que la surveillance du lit sur le lit pourrait être une méthode de base pour garder les agents de l’IA sous contrôle à mesure qu’ils deviennent plus répandus et capables.
« La surveillance du COT présente un ajout précieux aux mesures de sécurité pour l’IA frontalière, offrant un aperçu rare de la façon dont les agents de l’IA prennent des décisions », ont déclaré les chercheurs du document de position. «Pourtant, rien ne garantit que le degré de visibilité actuel persistera. Nous encourageons la communauté de recherche et les développeurs d’IA frontaliers à faire le meilleur usage de la surveillance et à étudier comment il peut être préservé.»
Le document de position demande aux principaux développeurs de modèles d’IA à étudier ce qui rend «surveillable» – en d’autres termes, quels facteurs peuvent augmenter ou réduire la transparence dans la façon dont les modèles d’IA arrivent réellement aux réponses. Les auteurs de l’article disent que la surveillance du COT peut être une méthode clé pour comprendre les modèles de raisonnement sur l’IA, mais notez qu’il pourrait être fragile, liant à toute intervention qui est une transparence ou une connexion.
Les auteurs du document appellent également les développeurs de modèles AA à suivre la surveillance du COT et à étudier comment la méthode pourrait un jour être implémentée comme mesure de sécurité.
Les signataires notables du journal incluent le directeur des recherches d’OpenAI, Mark Chen, le PDG de la surintiffentince Safe Ilya Sutskever, le lauréat du prix Nobel Geoffrey Hinton, le cofondateur de Google Deepmind Shane Legg, le XAI Safety Adis Dan Hendrycks et le cofondateur de Machines Thinking John Schulman. Les premiers auteurs incluent des dirigeants du Royaume-Uni AI Security Institute et Apollo Research, et d’autres signataires proviennent de METR, Amazon, Meta et UC Berkeley.
Le papier marque à Momille of Unity parmi de nombreux leaders de l’industrie de l’IA pour tenter de stimuler la sécurité de l’IA de recherche. Cela survient à un moment où les entreprises technologiques sont prises dans une concurrence féroce – qui a conduit Meta à braconner les meilleurs chercheurs d’Openai, Google Deepmind et anthropic avec des offres d’un million de dollars. Certains des chercheurs les plus recherchés sont ceux qui construisent des agents d’IA et des modèles de raisonnement en IA.
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
« Nous sommes à ce moment critique où nous avons cette nouvelle chose de la chaîne de pensées. Cela semble assez utile, mais cela pourrait disparaître en quelques yers si les gens se concentrent vraiment dessus », a déclaré Bowen Baker, un chercheur Openai qui était sur le journal, avec TechCrunch. «Publier un article de position comme celui-ci, pour moi, est un mécanisme pour obtenir plus de recherches et faire attention à ce sujet avant que cela ne se produise.»
OpenAI a publié publiquement un aperçu du premier modèle de raisonnement d’IA, O1, en septembre 2024. Au cours des mois sincères, l’industrie de la technologie a rapidement publié des concurrents qui présentent des similitudes, avec certains modèles de Google Deepmind, Xai et anthropic montrant que nous avons des benchmarks.
Cependant, il est relativement peu compris sur le fonctionnement des modèles de raisonnement IA. Alors que les laboratoires de l’IA ont dépassé l’amélioration des performances de l’IA au cours de la dernière année, cela a été nécessaire dans une meilleure compréhension de la façon dont ils arrivent à leurs réponses.
Anthropic a été l’un des leaders de l’industrie pour déterminer comment les modèles d’IA fonctionnent vraiment – un domaine appelé interprétabilité. Plus tôt cette année, le PDG Dario Amodei a annoncé un engagement à ouvrir la boîte noire des modèles d’IA d’ici 2027 et à investir davantage dans l’interprétabilité. Il a également appelé Openai et Google Deepmind pour rechercher davantage le sujet.
Les premières recherches d’Anthropic ont indiqué que COTS peut ne pas être une indication pleinement fiable de la façon dont ces modèles arrivent à une réponse. Dans le même temps, les chercheurs d’OpenAI ont déclaré que la surveillance du COT pourrait un jour être un moyen fiable de suivre l’alignement et la sécurité dans les modèles d’IA.
L’objectif des articles de position comme celui-ci est de signaler un boost et d’attirer plus d’attention sur les domaines de recherche naissants, tels que la surveillance du COT. Des entreprises comme Openai, Google Deepmind et Anthropic recherchent déjà ces sujets, mais il est possible que ce document encourage davantage de financement et de recherche sur l’espace.