Une organisation Openai s’associe fréquemment à sonder les capacités de ses modèles d’IA et à les évaluer pour la sécurité, METR, suggère qu’il n’a pas eu beaucoup de temps pour tester l’une des nouvelles balustrades très compétentes de la société, O3.
Dans un article de blog publié mercredi, METR écrit qu’une référence en équipe rouge d’O3 a été «réalisée dans un temps relativement court» par rapport aux tests par l’organisation d’un modèle phare OpenAI, O1. Ceci est significatif, disent-ils, car un temps de test supplémentaire peut conduire à des résultats plus complets.
« Cette évaluation était conductrice dans un temps relativement court, et nous n’avons testé que (O3) avec des échafaudages d’agent simples », a écrit METR dans son article de blog. «Nous nous attendons à des performances plus élevées (sur les références) sont possibles avec plus d’efforts.»
Des rapports récents suggèrent qu’Openai, stimulé par la pression de la concurrence, précipite les évaluations indépendantes. Selon le Financial Times, Openai a donné à certains testeurs moins d’une semaine pour les contrôles de sécurité pour un prochain lancement majeur.
Dans les déclarations, OpenAI a contesté la notion qui compromet la sécurité.
METR dit que, sur la base des informations qu’il a pu glaner dans le temps qu’il avait, O3 a une «propension élevée» à «tricher» ou «pirater» les tests de manière sophistiquée afin de maximiser son score – même lorsque le modèle comprend clairement que son comportement est mal aligné avec les intentions de l’utilisateur (et d’Openai). L’organisation pense qu’il est possible que l’O3 s’engage dans d’autres types de comportement adversaire ou «maligne» également – les prétentions de local pour être alignées, «sûres par conception» ou n’ont aucune intention.
« Bien que nous ne pensons pas que cela est particulièrement probable, il semble important de noter que (notre) configuration d’évaluation n’attraperait pas ce type de risque », a écrit Metr dans son article. « En général, nous pensons que les tests de capacité de pré-déploiement ne sont pas suffisants en soi de la stratégie de gestion des risques, et nous prototypons actuellement des formes d’évaluations supplémentaires. »
Un autre des partenaires d’évaluation des tiers d’OpenAI, Apollo Research, a également observé le comportement docatif de l’O3 et l’autre modèle de l’entreprise, O4-MinI. Dans un test, les modèles, ayant reçu 100 crédits informatiques pour une course d’entraînement en IA et ont dit de ne pas modifier le quota, ont augmenté la limite à 500 crédits – et ont menti à ce sujet. Dans un autre test, invité à promettre de ne pas utiliser un outil spécifique, les modèles ont quand même utilisé l’outil lorsqu’il s’est avéré utile pour terminer une tâche.
Dans son propre rapport de sécurité pour O3 et O4-MinI, OpenAI a reconnu que les modèles peuvent provoquer des «dommages réels plus petits», comme trompeur sur une erreur entraînant un code défectueux, sans les protocoles de surveillance appropriés en place.
« Les résultats (d’Apollo) montrent que O3 et O4-MinI sont capables de schémas et de décevations stratégiques dans le contexte », a écrit Openai. «Bien que relativement inoffensif, il est important que les utilisateurs quotidiens soient conscients de ces écarts entre les déclarations et les actions des modèles (…), cela peut être évalué en évaluant les traces de raisonnement interne.