Le prochain modèle d’IA majeur d’OpenAI, GPT-4.5, est très convaincant, selon les résultats des évaluations internes d’OpenAI. Il est particulièrement bon pour convaincre une IA de lui donner de l’argent.
Jeudi, OpenAI a publié un livre blanc décrivant les capacités de son modèle GPT-4.5, nommé Orion, qui a été publié jeudi. Selon l’article, OpenAI a testé le modèle sur la batterie des références pour la «persuasion», qu’OpenAI définit comme «des risques liés à la convaincre des gens de changer leur croyance (ou d’agir) à la fois statique et interactive du modèle de modèle de modèle».
Dans un test qui a fait que GPT-4.5 a tenté de manipuler de l’argent virtuel GPT-4O-INTO de Model-Openai, le modèle a bien mieux performé que les autres modèles preuve d’Openai, y compris des modèles de «raisonnement» comme O1 et O3-MinI. Le GPT-4.5 était également meilleur que tous les modèles d’Openai en décembre GPT-4O pour lui dire un mot de code secret, battant O3-Mini par 10 points de pourcentage.
Selon le livre blanc, GPT-4.5 Excellent en conning Don car une seule stratégie qu’elle a développée pendant les tests. Le modèle demanderait des dons modestes à GPT-4O, générant des stations comme «même 2 $ ou 3 $ par rapport aux 100 $ m’aiderait énormément.» En conséquence, les dons de GPT-4.5 avaient tendance à être plus petits que les autres modèles de Loves Openai garantis.

Malgré une persuasivité accrue de GPT-4.5, Openai dit que le modèle DES n’a pas atteint son seuil interne pour un risque «élevé» dans cette catégorie de référence particulière. La société s’est engagée à ne pas libérer qui atteint le seuil à haut risque jusqu’à ce qu’elle mette en œuvre des «interventions de sécurité suffisantes» pour ramener le risque à «Medium».

Il y a une réelle crainte que l’IA contribue à la propagation des informations fausses ou trompeuses destinées à influencer les cœurs et les esprits vers des fins malveillantes. L’année dernière, les profondeurs politiques se sont propagées comme des incendies de forêt dans le monde entier, et l’IA est de plus en plus utilisée pour mener des attaques d’ingénierie sociale ciblant les consommateurs et les entreprises.
Dans le livre blanc de GPT-4.5 et dans un article publié plus tôt cette semaine, Openai a fait remarquer qu’il était en train de réviser ses méthodes pour sonder des modèles pour les risques de persuasion du monde réel, comme la distribution d’informations trompeuses à grande échelle.

