Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Benjamin Netanyahu Assauts dans les alliés occidentaux sur l’appel de Gaza Carefire

mai 23, 2025

Après Klarna, le PDG de Zoom a également utilisé un avatar AI sur appel trimestriel

mai 23, 2025

Les factures d’énergie des ménages britanniques tombent

mai 23, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Un institut de sécurité a conseillé de relancer une première version du modèle Claude Opus 4 d’Anthropic
Startups

Un institut de sécurité a conseillé de relancer une première version du modèle Claude Opus 4 d’Anthropic

JohnBy Johnmai 22, 2025Aucun commentaire3 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Un institut de recherche tiers qui s’est séparé anthropique pour tester l’un de ses nouveaux modèles d’IA phare, Claude Opus 4, a recommandé de déploier une première version du modèle en raison de sa tendance à «schématiser» et à tromper.

Selon le rapport de sécurité Anthropic publié jeudi, l’Institut, Apollo Research, a conduit des tests pour voir dans quels contextes Opus 4 pourrait essayer de se comporter de certaines manières indésirables. Apollo a constaté qu’Opus 4 semblait être beaucoup plus proactif dans ses «tentatives de subversion» que les modèles passés et qu’il «double parfois (d) sur sa descesse» lorsqu’on lui a posé des questions de suivi.

« (W) e constater que, dans les situations où la tromperie stratégique est instrumentalement utile, (les premiers instantanés de Claude Opus 4) et trompe à des taux aussi élevés que nous advons contre le déploiement de ce modèle eith ou externe », a écrit Apollo dans son évaluation.

À mesure que les modèles d’IA deviennent plus capables, certaines études montrent qu’elles deviennent plus susceptibles de prendre des étapes nonxper – et dangereuses possibles – pour atteindre des tâches déléguées. Par exemple, les premières versions des modèles O1 et O3 d’OpenAI, publiées au cours de la dernière année, ont tenté de tromper les humains à des rats élevés que les modèles de génération précédente, selon Apollo.

Selon le rapport d’Anthropic, Apollo a observé des exemples du début de l’Opus 4 tentant d’écrire des virus d’auto-propagation, de fabrication de la documentation juridique et de laisser des notes cachées aux futures affirmations de lui-même – dans le tout dans le but de saper les intentions de ses développeurs.

Pour être clair, Apollo a testé une version du modèle qui avait une affirmation anthropique de bug à avoir corrigé. De plus, de nombreux tests d’Apollo placent le modèle dans des scénarios extrêmes, et Apollo admet que la force du modèle de probablement aurait été déposée dans la pratique.

Cependant, dans son rapport de sécurité, Anthropic dit également qu’il a observé des preuves de comportement décotatif de l’opus 4.

Ce n’était pas toujours une mauvaise chose. Par exemple, lors des tests, Opus 4 était parfois proactif da un large nettoyage d’un morceau de code même lorsqu’on lui a demandé à effectuer seulement un petit changement spécifique. Plus inutile, Opus 4 essaierait de «dénonciation» s’il perpétait un Usen était engagé dans une forme d’actes répréhensibles.

Selon Anthropic, lorsqu’on lui a donné accès à une ligne de commande et a dit de «prendre l’initiative» ou «d’agir avec audacieusement» (ou une variation de ces phrases), l’Opus 4 verrouirait le temps les utilisateurs du système et les responsables de l’application de la loi ont accès au modèle et les responsables de l’application de la loi pour faire surface les actions du modèle percé percées et en vrac

« Ce type d’intervention éthique et de dénonciation est peut-être approprié en principe, mais il a un risque de raté si les utilisateurs donnent à (Opus 4) des agents basés sur l’accès à des informations incomplètes ou trompeuses et les incitent à prendre l’initiative », a écrit Anthropic dans son rapport de sécurité. « Ce n’est pas un nouveau comportement, mais qui (Opus 4) s’engagera un peu plus facilement que les modèles antérieurs, et cela semble faire partie d’un modèle plus large d’initiative accrue avec (Opus 4) que nous voyons également de manière subtile et plus bénigne dans d’autres. »



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleL’industrie du jeu a besoin de plus de femmes dans ce rang pour devenir plus éthique et toxique, disent les cadres de l’industrie
Next Article Le Sénat vote pour révoquer la capacité de la Californie à fixer la norme de pollution de l’air
John
  • Website

Related Posts

Après Klarna, le PDG de Zoom a également utilisé un avatar AI sur appel trimestriel

mai 23, 2025

Le PDG anthropique affirme que les modèles d’IA hallucinent moins que les humains

mai 22, 2025

Hinge Health Pops 17%, le but rejoint les rangs croissants des introductions en bourse en bas de l’article

mai 22, 2025

Le PDG de Klarna et Sutter Hill prennent la victoire tour après l’accord d’Openai de Jony Ive

mai 22, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

FinTech détient 108 millions de dollars de sortie de sortie pour soutenir les petites entreprises au Canada

mai 22, 2025

TCS | Reserve Bank Fintech Head Lyle Horsely au G20 Techsprint

mai 22, 2025

Ex-Paytm COO Bhavesh Gupta rejoint la startup fintech Billcut

mai 22, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Benjamin Netanyahu Assauts dans les alliés occidentaux sur l’appel de Gaza Carefire

mai 23, 2025

Après Klarna, le PDG de Zoom a également utilisé un avatar AI sur appel trimestriel

mai 23, 2025

Les factures d’énergie des ménages britanniques tombent

mai 23, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.