Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

C’était un « bon étudiant », mais il a sauté l’université et a rencontré un électricien de 23 ans qui deviendrait son patron. Il fait six numéros

septembre 14, 2025

Les ingénieurs de l’IA sont déployés en tant que consultants et sont payés 900 $ par heure

septembre 14, 2025

La star de « Million Dollar Listing » Fredrik Ecklund dit que Gen Z n’a pas besoin d’un diplôme universitaire pour arriver sur l’immobilier: « Vous devez sortir dans la rue. »

septembre 14, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » OpenAI a trouvé des fonctionnalités dans des modèles d’IA qui correspond à différentes «personnages»
Startups

OpenAI a trouvé des fonctionnalités dans des modèles d’IA qui correspond à différentes «personnages»

JohnBy Johnjuin 18, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Les chercheurs d’OpenAI disent avoir découvert des caractéristiques cachées à l’intérieur des modèles d’IA qui correspond à des «personnages» mal alignés, selon de nouvelles recherches publiées par la société mercredi.

En examinant les représentations internes d’un modèle d’IA – les nombres qui dictent comment un modèle d’IA réagit, qui semble souvent complètement incohérent aux humains – les chercheurs OpenAI ont pu trouver des modèles qui se sont allumés lorsqu’un modèle s’est mal comporté.

Les chercheurs ont trouvé une telle caractéristique qui correspond à un comportement toxique dans les responsabilités d’un modèle d’IA – le fait que le modèle d’IA donnerait des stations mal alignées, telles que mentir aux utilisateurs ou l’irresponsion.

Les chercheurs ont découvert qu’ils avaient pu augmenter ou vers le bas en ajustant la fonctionnalité.

Les dernières recherches d’Openai donnent à l’entreprise une meilleure compréhension des facteurs qui peuvent rendre les modèles d’IA à agir dangereux et, par conséquent, pourraient les aider à développer des modèles d’IA plus sûrs. OpenAI pourrait potentiellement utiliser les modèles qu’il a trouvé pour mieux détecter le désalignement dans les modèles de production d’IA, selon le chercheur d’interprétation d’Openai, Dan Mossing.

« Nous sommes en train de sauter que les outils que nous avons lus – comme cette capacité à réduire un phénomène compliqué à une opération mathématique simple – nous aideront également à généraliser le modèle à d’autres endroits », a déclaré Mossing dans une interview avec TechCrunch.

Les chercheurs d’IA savent comment améliorer les modèles d’IA, mais avec confusion, ils comprennent parfaitement comment les modèles d’IA arrivent à leurs réponses – Chris Olah d’Anthropic, souvent Nosten Nemoiks, que les modèles d’IA sont cultivés plus que ce qui est construit. Openai, Google Deepmind et Anthropic investissent davantage dans la recherche d’interprétabilité – un domaine qui essaie d’ouvrir la boîte noire du fonctionnement des modèles d’IA – pour résoudre ce problème.

Une étude récente du chercheur d’Oxford AI, Owain Evans, a soulevé de nouvelles questions sur la façon dont les modèles d’IA généralisent. La recherche a révélé que les modèles d’Openai pourraient être affinés sur le code insécurité et afficheraient ensuite des comportements malveillants dans une variété de domaines, comme essayer d’essayer un utilisateur pour partager son mot de passe. Le phénomène est réduit comme un désalignement émergent, et l’étude d’Evans a inspiré OpenAI pour explorer cela davantage.

Mais dans le processus d’étude du désalignement émergent, Openai dit qu’il tombe sur des caractéristiques à l’intérieur des modèles d’IA qui semblent jouer un rôle important dans le contrôle du comportement. Le mossage dit que ces modèles rappellent l’activité du cerveau interne chez l’homme, dans lequel certains neurones sont en corrélation avec les humeurs ou les comportements.

« Lorsque Dan et Team ont précédé cela lors d’une réunion de recherche, je me disais: » Wow, vous l’avez trouvé «  », a déclaré Tejal Patwardhan, chercheur d’Openai Frontier Evaluations, dans une interview avec TechCrunch. « Vous avez trouvé comme une activation neuronale interne qui les montre et que vous pouvez réellement diriger pour rendre le modèle plus aligné. »

Certaines caractéristiques Openai ont trouvées corrélées avec le sarcasme dans les tenants du modèle d’IA, tandis que d’autres caractéristiques sont en corrélation avec des stations plus toxiques dans lesquelles un modèle d’IA agit comme un méchant caricatural et maléfique. Les chercheurs d’OpenAI disent qu’il y a des caractéristiques qui peuvent changer considérablement pendant le processus de réglage fin.

Remarque, les chercheurs d’Openai ont déclaré que ce qui émerge le désalignement extérieur, il était possible de ramener le modèle vers un bon comportement en affinant le modèle sur quelques exemples de code sécurisé.

Les dernières recherches d’Openai s’appuient sur les travaux précédents qu’Anthropic a effectués sur l’interprétabilité et l’alignement. En 2024, Anthropic a publié des recherches qui ont essayé de cartographier le fonctionnement interne des modèles d’IA, essayant d’épingler et d’étiqueter diverses fonctionnalités qui étaient responsables de différents concepts.

Des entreprises comme Openai et Anthropic prouvent qu’il y a une réelle valeur à comprendre le fonctionnement des modèles d’IA, et pas seulement les améliorer. Cependant, il y a un long chemin à parcourir pour bien comprendre les modèles d’IA modernes.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleL’économie augmentera de 0,8% au premier trimestre avant les prévisions
Next Article Facebook déploiera bientôt le support pour Passkeys sur Android et iOS
John
  • Website

Related Posts

Le président du conseil d’administration de Tesla appelle le débat sur le pack de paiement de 1 t $ d’Elon Musk ‘Un peu bizarre’

septembre 13, 2025

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages ​​de drones de Rainmaker du Rainmaker

septembre 13, 2025

Les législateurs de Californie adoptent l’IA de la sécurité du projet de loi SB 53 – mais Newsom pourrait encore opposer son veto

septembre 13, 2025

3 erreurs financières comme les nouveaux entrepreneurs font lors de la planification de l’avenir de leurs enfants

septembre 13, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Fichiers LendBuzz FinTech Lendch FinTech pour les introductions en bourse

septembre 12, 2025

Comment les crypto-monnaies, les fintechs et l’IA peuvent remodeler la géopolitique mondiale de l’avenir

septembre 11, 2025

APAC offre un grand potentiel de croissance, mais le succès nécessite une stratégie de paiement localisée

septembre 11, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

C’était un « bon étudiant », mais il a sauté l’université et a rencontré un électricien de 23 ans qui deviendrait son patron. Il fait six numéros

septembre 14, 2025

Les ingénieurs de l’IA sont déployés en tant que consultants et sont payés 900 $ par heure

septembre 14, 2025

La star de « Million Dollar Listing » Fredrik Ecklund dit que Gen Z n’a pas besoin d’un diplôme universitaire pour arriver sur l’immobilier: « Vous devez sortir dans la rue. »

septembre 14, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.