Le PDG anthropique veut ouvrir la boîte noire des modèles d'IA d'ici 2027

Le PDG d’Anthropic, Dario Amodei, a publié jeudi un essai mettant en évidence le peu de gens des chercheurs sur le fonctionnement intérieur des meilleurs modèles d’IA au monde. Pour y remédier, Amodei a fixé un objectif ambitieux pour que Anthropic détecte de manière fiable la plupart des problèmes de modèle d’IA d’ici 2027.

Amodei reconnaît le défi à venir. Dans «l’urgence de l’interprétabilité», le PDG dit que Anthropic a fait des percées précoces dans le traçage de la façon dont les modèles arrivent à leurs réponses – mais soulignent que beaucoup plus de recherches sont nécessaires pour décoder ces systèmes à mesure qu’ils se développent plus.

«Je suis très préoccupé par le sur-noyage de ce système sans mieux comprendre l’interprétabilité», a écrit Amodei dans l’essai. «Ces systèmes seront absolument au cœur de l’économie, de la technologie et de la sécurité nationale, et seront capables de tant d’automy que je considère qu’il est inacceptable pour que l’humanité soit totalement ignorante de leur fonctionnement.»

Anthropic est l’une des sociétés pionnières dans l’interprétabilité mécaniste, un domaine qui vise à ouvrir la boîte noire des modèles d’IA et à comprendre pourquoi elles prennent les décisions qu’elles font. Malgré les améliorations rapides des performances des modèles d’IA de l’industrie technologique, nous avons encore relativement peu d’idées comment ces systèmes arrivent aux décisions.

Par exemple, OpenAI a récemment lancé de nouveaux modèles de raisonnement AI, O3 et O4-MinI, qui fonctionnent mieux sur certaines tâches, mais hallucinent également plus que ses autres modèles. L’entreprise ne sait pas pourquoi cela se produit.

«Lorsqu’un système d’IA génératif fait quelque chose, comme résumer un document financier, nous n’avons aucune idée, à un niveau spécifique ou précis, pourquoi il fait les choix qu’il fait – pourquoi il choisit certains mots par rapport à d’autres, ou pourquoi il fait une erreur de l’occasion malgré son accident. Écrit dans l’essai.

Dans l’essai, Amodei note que la co-fondatrice anthropique Chris Olah dit que les modèles d’IA sont «cultivés plus qu’ils ne construisent». En d’autres termes, les chercheurs d’IA ont trouvé des moyens d’améliorer l’intelligence du modèle d’IA, mais ils ne savent pas pourquoi.

Dans l’essai, Amodei dit qu’il pourrait être dangereux d’atteindre Ag – ou comme il l’appelle, «un pays de génies dans un centre de données» – sans comprendre comment ces modèles fonctionnent. Dans un essai précédent, Amodei a affirmé que l’industrie de la technologie pourrait atteindre une telle étape d’ici 2026 ou 2027, mais pense que nous avons beaucoup plus compris ces modèles d’IA.

À long terme, Amodei dit que Anthropic aimerait, essentiellement, effectuer des «scans cérébraux» ou des «IRM» des modèles d’IA de pointe. Ces examens aideraient à identifier une large rage de la plupart des modèles d’IA, y compris leurs tendances à mentir ou à rechercher le pouvoir, ou une autre faiblesse, dit-il. Cela pourrait prendre de cinq à 10 ans pour atteindre, mais ces mesures seront nécessaires pour tester et déployer les futurs modèles d’IA d’Anthropic, a-t-il ajouté.

Anthropic a fait quelques percées de recherche qui lui ont permis de mieux comprendre le fonctionnement de ses modèles d’IA. Par exemple, la société a récemment trouvé des moyens de retracer les voies de réflexion d’un modèle d’IA à travers, ce que l’entreprise appelle, les circuits. Anthropic a identifié un circuit qui aide les modèles d’IA à comprendre quelles villes américaines sont situées dans les États américains. La société n’a trouvé que quelques-uns de ces circuits, mais estime qu’il y a des millions dans les modèles d’IA.

Anthropic a investi dans la recherche d’interprétabilité elle-même et a récemment fait son premier investissement dans une startup travaillant sur l’interprétabilité. Bien que l’interprétabilité soit largement considérée comme un domaine de la recherche sur la sécurité aujourd’hui, Amodei note que, diable, expliquant comment les modèles d’IA arrivent à leurs réponses pourraient persister une bande publicitaire commerciale.

Dans l’essai, Amodei a appelé Openai et Google Deepmind pour augmenter leurs efforts de recherche dans le domaine. Au-delà du coup amical, le PDG d’Anthropic a demandé aux gouvernements d’imposer des réglementations «légères» pour encourager la recherche interprétabi, telle que les exigences pour que les entreprises divulguent leurs pratiques de sécurité et de sécurité. Dans l’essai, Amodei affirme également que les États-Unis devraient mettre des exportations sur la Chine en Chine, afin de limiter la probabilité d’une race mondiale d’IA hors contrôle.

Anthropic s’est toujours démarqué d’Openai et de Google pour se concentrer sur la sécurité. Alors que d’autres sociétés technologiques ont repoussé la facture de sécurité controversée de l’IA de Californie, SB 1047, Anthropic a émis un soutien et des recommandations modestes pour le projet de loi, qui aurait des normes de rapport de sécurité pour les développeurs de modèles d’IA frontaliers.

Dans ce cas, Anthropic semble faire pression pour un effort à l’échelle de l’industrie pour mieux comprendre les modèles d’IA, pas seulement augmenter leurs capacités.

Source link

What's Hot

Le directeur du Centre national de lutte contre le terrorisme du président Trump démissionne à cause de la guerre : l’Iran n’est « pas une menace imminente »

Steve Blank, votre startup est probablement morte à son arrivée

Icône du bouton flèche vers le bas

Le PDG anthropique veut ouvrir la boîte noire des modèles d’IA d’ici 2027

Steve Blank, votre startup est probablement morte à son arrivée

Amazon ajoute des options de livraison en 1 heure et 3 heures aux États-Unis

Gecko Robotics remporte le plus gros contrat de robotique avec l’US Navy à ce jour

Picsart permet désormais aux créateurs d’« embaucher » des assistants IA via le marché des agents

Fintech Ripple aurait atteint une valorisation de 50 milliards de dollars grâce à des rachats d’actions à grande échelle

Regions Bank nomme Jay Darnell au poste de responsable des cartes commerciales et de l’activation des technologies financières

Future FinTech signe un accord de coopération stratégique avec Maxing Technology Limited pour créer un écosystème mondial de paiements

Top Insights

Le directeur du Centre national de lutte contre le terrorisme du président Trump démissionne à cause de la guerre : l’Iran n’est « pas une menace imminente »

Steve Blank, votre startup est probablement morte à son arrivée

Icône du bouton flèche vers le bas

What's Hot

Le PDG anthropique veut ouvrir la boîte noire des modèles d’IA d’ici 2027

Related Posts

Subscribe to Updates