De temps en temps, les chercheurs des plus grandes entreprises technologiques abandonnent une bombe. Il y avait le temps que Google a déclaré que sa dernière puce quantique indiquait que plusieurs univers existaient. Ou quand Anthropic a donné à son agent de l’IA Claudius un distributeur de collations à courir et qu’il est devenu s’amortir, appeler la sécurité sur les gens et insister sur le fait qu’il était humain.
Ce week-end, c’était au tour d’Openai de relever les sourcils collectifs.
OpenAI a publié lundi quelques recherches qui ont expliqué comment il empêche les modèles d’IA de «schémas». C’est une pratique dans laquelle une «IA se comporte dans une façon à la surface tout en cachant ses véritables objectifs», a défini Openai dans son tweet sur la recherche.
Dans l’article, réalisé avec Apollo Research, les chercheurs sont allés un peu plus loin, comparent des aliments en matière d’IA à un courtier en actions humaines enfreignant la loi pour gagner autant d’argent que possible. Les chercheurs, cependant, ont fait valoir que la plupart des «schémas» de l’IA n’étaient pas si nocifs. « Les échecs les plus courants intolent des formes simples de descesses – par exemple, faisant semblant d’avoir à goûter une tâche sans le faire », ont-ils écrit.
L’article a été principalement publié pour montrer que «l’alignement délibératif» – la technique anti-schémage qu’ils testaient bien le monde.
Mais cela a également expliqué que les développeurs d’IA n’ont pas déterminé un moyen de former leurs modèles à ne pas schécher. En effet, une telle formation pourrait réellement enseigner au modèle comment encore mieux pour éviter d’être détesté.
« Un mode d’échec majeur de tentative de« s’entraîner »est simplement d’enseigner le modèle à schématiser plus attentivement et plus rapidement», ont écrit les chercheurs.
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
La partie la plus étonnante est peut-être que, si un modèle comprend qu’il est testé, il peut préparer, ce n’est pas conteste uniquement pour passer le test, même s’il est toujours en schémas. «Les modèles deviennent souvent plus conscients qu’ils sont évalués. Cette conscience de la situation peut elle-même réduire les intrigues, indépendantes d’un véritable alignement», ont écrit les chercheurs.
Ce n’est pas une nouvelle que les modèles d’IA mentent. À ce jour, la plupart d’entre nous ont connu des hallucinations d’IA, ou le modèle donnant en toute confiance une réponse à une invite qui ne l’est pas. Mais les hallucinations présentent essentiellement des conjectures en toute confiance, comme le document des recherches Openai publiées plus tôt ce mois-ci.
Le schéma est autre chose. C’est délibéré.
Même cette révélation – qu’un modèle induit délibérément les humains en erreur – n’est pas nouveau. Apollo Research a publié pour la première fois un document en décembre documentant comment cinq modèles ont apporté des instructions lorsqu’ils ont reçu des instructions pour atteindre un objectif «à tout prix».
Les actualités ici sont des actes de loi: les chercheurs ont vu des réductions significatives des intrigues en utilisant «l’alignement délibératif». Cette technique consiste à enseigner au modèle un «spécial anti-scheming», puis à faire en sorte que le modèle soit revue avant d’agir. C’est un peu comme faire répéter les petits enfants avant de leur permettre de jouer.
Les chercheurs d’Openai insistent sur le fait que le mensonge qu’ils ont attrapé avec leurs propres modèles, ou même avec Chatgpt, n’est pas si sérieux. En tant que co-fondatrice d’Openai, Wojciech Zaremba, a déclaré à Techcrandne Maxwell Zeff à propos de cette recherche: «Ce travail a été fait dans le Simulated Around, et nous pensons qu’il a représenté des cases à utiliser futures. Cependant, aujourd’hui, nous n’avons pas vu ce type de schémas conventionnel dans notre trafic. Et c’est juste le mensonge.
Le fait que les modèles d’IA de plusieurs joueurs trompent intentionnellement l’humain est peut-être compréhensible. Ils ont été construits par des humains, pour imiter les humains et (les données synthétiques à part) pour les données les plus formées sur les données produites par les humains.
C’est aussi des fous.
Bien que nous ayons tous vécu la frustration de la technologie mal performante (en pensant à vous, les imprimantes à domicile d’antan), à quand remonte la dernière fois que votre logiciel Not-A-AI vous a délibérément menti? Votre journée de réception a-t-elle fabriqué des e-mails seuls? Votre CMS a-t-il enregistré de nouvelles prospects qui n’existaient pas pour remplir ses chiffres? Votre application fintech a-t-elle constitué ses propres transactions bancaires?
Il convient de réfléchir à cela, car les barils mondiaux des entreprises vers un avenir d’IA où les entreprises pensent que les agents peuvent être traités comme des employés indépendants. Les chercheurs de cet article ont le même avertissement.
«Comme les IA se voient attribuer des tâches plus complexes avec des conséquences réelles et commencer à poursuivre des objectifs plus ambigus à long terme, nous nous attendons à ce que le potentiel de schémas nuisible augmente – ainsi nos garanties et notre capacité à tester rigoureusement se développent en conséquence,»