Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Même Honda se tourne vers les centres de données

juillet 1, 2026

How foodservice giant Sodexo is embracing AI and robotics to reshape the kitchen

juillet 1, 2026

Lime lève 167 millions de dollars lors de son introduction en bourse après des années de teasing pour ses débuts publics

juillet 1, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Le partenaire OpenAI dit qu’il avait relativement peu de temps pour tester le modèle d’IA O3 de l’entreprise
Startups

Le partenaire OpenAI dit qu’il avait relativement peu de temps pour tester le modèle d’IA O3 de l’entreprise

JohnBy Johnavril 16, 2025Aucun commentaire3 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Une organisation Openai s’associe fréquemment à sonder les capacités de ses modèles d’IA et à les évaluer pour la sécurité, METR, suggère qu’il n’a pas eu beaucoup de temps pour tester l’une des nouvelles balustrades très compétentes de la société, O3.

Dans un article de blog publié mercredi, METR écrit qu’une référence en équipe rouge d’O3 a été «réalisée dans un temps relativement court» par rapport aux tests par l’organisation d’un modèle phare OpenAI, O1. Ceci est significatif, disent-ils, car un temps de test supplémentaire peut conduire à des résultats plus complets.

« Cette évaluation était conductrice dans un temps relativement court, et nous n’avons testé que (O3) avec des échafaudages d’agent simples », a écrit METR dans son article de blog. «Nous nous attendons à des performances plus élevées (sur les références) sont possibles avec plus d’efforts.»

Des rapports récents suggèrent qu’Openai, stimulé par la pression de la concurrence, précipite les évaluations indépendantes. Selon le Financial Times, Openai a donné à certains testeurs moins d’une semaine pour les contrôles de sécurité pour un prochain lancement majeur.

Dans les déclarations, OpenAI a contesté la notion qui compromet la sécurité.

METR dit que, sur la base des informations qu’il a pu glaner dans le temps qu’il avait, O3 a une «propension élevée» à «tricher» ou «pirater» les tests de manière sophistiquée afin de maximiser son score – même lorsque le modèle comprend clairement que son comportement est mal aligné avec les intentions de l’utilisateur (et d’Openai). L’organisation pense qu’il est possible que l’O3 s’engage dans d’autres types de comportement adversaire ou «maligne» également – les prétentions de local pour être alignées, «sûres par conception» ou n’ont aucune intention.

« Bien que nous ne pensons pas que cela est particulièrement probable, il semble important de noter que (notre) configuration d’évaluation n’attraperait pas ce type de risque », a écrit Metr dans son article. « En général, nous pensons que les tests de capacité de pré-déploiement ne sont pas suffisants en soi de la stratégie de gestion des risques, et nous prototypons actuellement des formes d’évaluations supplémentaires. »

Un autre des partenaires d’évaluation des tiers d’OpenAI, Apollo Research, a également observé le comportement docatif de l’O3 et l’autre modèle de l’entreprise, O4-MinI. Dans un test, les modèles, ayant reçu 100 crédits informatiques pour une course d’entraînement en IA et ont dit de ne pas modifier le quota, ont augmenté la limite à 500 crédits – et ont menti à ce sujet. Dans un autre test, invité à promettre de ne pas utiliser un outil spécifique, les modèles ont quand même utilisé l’outil lorsqu’il s’est avéré utile pour terminer une tâche.

Dans son propre rapport de sécurité pour O3 et O4-MinI, OpenAI a reconnu que les modèles peuvent provoquer des «dommages réels plus petits», comme trompeur sur une erreur entraînant un code défectueux, sans les protocoles de surveillance appropriés en place.

« Les résultats (d’Apollo) montrent que O3 et O4-MinI sont capables de schémas et de décevations stratégiques dans le contexte », a écrit Openai. «Bien que relativement inoffensif, il est important que les utilisateurs quotidiens soient conscients de ces écarts entre les déclarations et les actions des modèles (…), cela peut être évalué en évaluant les traces de raisonnement interne.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLes tarifs peuvent s’opposer à l’inflation de la Fed avec les objectifs de travail, dit Jay Powell
Next Article Temu et Shein ont réduit les dépenses publicitaires alors que la guerre commerciale frappe
John
  • Website

Related Posts

Même Honda se tourne vers les centres de données

juillet 1, 2026

Lime lève 167 millions de dollars lors de son introduction en bourse après des années de teasing pour ses débuts publics

juillet 1, 2026

Venice AI devient une licorne avec une série A de 65 millions de dollars alors que sa plateforme d’IA axée sur la confidentialité prend son envol

juillet 1, 2026

Gemini Spark, l’assistant d’agent de Google, est désormais disponible sur Mac

juillet 1, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

How Koaloo.Fi Became the 2026 Small Business Champion in Fintech Innovation

juillet 1, 2026

PB Fintech étend sa présence à Dubaï et investit Rs 20 milliards dans le secteur des paiements

juin 30, 2026

SeedX lance des services de marketing fintech B2B spécialisés pour générer une croissance prévisible des revenus

juin 29, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Même Honda se tourne vers les centres de données

juillet 1, 2026

How foodservice giant Sodexo is embracing AI and robotics to reshape the kitchen

juillet 1, 2026

Lime lève 167 millions de dollars lors de son introduction en bourse après des années de teasing pour ses débuts publics

juillet 1, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.