Guide Labs lance un nouveau type de LLM interprétable

Le défi de gérer un modèle d’apprentissage profond est souvent de comprendre pourquoi il fait ce qu’il fait : qu’il s’agisse des sessions de lutte répétées de xAI pour affiner la politique étrange de Grok, des luttes de ChatGPT contre la flagornerie ou des hallucinations banales, il n’est pas facile de parcourir un réseau neuronal avec des milliards de paramètres.

Guide Labs, une startup de San Francisco fondée par le PDG Julius Adebayo et la directrice scientifique Aya Abdelsalam Ismail, propose aujourd’hui une réponse à ce problème. Lundi, la société a mis en open source un LLM de 8 milliards de paramètres, Steerling-8B, formé avec une nouvelle architecture conçue pour rendre ses actions facilement interprétables : chaque jeton produit par le modèle peut être retracé jusqu’à ses origines dans les données d’entraînement du LLM.

Cela peut être aussi simple que de déterminer les documents de référence pour les faits cités par le modèle, ou aussi complexe que de comprendre la compréhension du modèle de l’humour ou du genre.

« Si j’ai mille milliards de façons d’encoder le genre, et que je l’encode dans 1 milliard des 1 billions de choses que j’ai, vous devez vous assurer de trouver tous ces 1 milliard de choses que j’ai codées, et ensuite vous devez être capable de les activer et de les désactiver de manière fiable », a déclaré Adebayo à TechCrunch. « On peut le faire avec les modèles actuels, mais c’est très fragile… C’est un peu une des questions du Graal. »

Adebayo a commencé ce travail alors qu’il obtenait son doctorat au MIT, co-auteur d’un article de 2018 largement cité qui montrait que les méthodes existantes pour comprendre les modèles d’apprentissage profond n’étaient pas fiables. Ce travail a finalement conduit à la création d’une nouvelle façon de créer des LLM : les développeurs insèrent une couche conceptuelle dans le modèle qui regroupe les données en catégories traçables. Cela nécessite davantage d’annotations de données initiales, mais en utilisant d’autres modèles d’IA pour les aider, ils ont pu former ce modèle comme leur plus grande preuve de concept à ce jour.

« Le genre d’interprétabilité que font les gens est… la neuroscience sur un modèle, et nous l’inversons », a déclaré Adebayo. « Ce que nous faisons, c’est concevoir le modèle à partir de zéro afin que vous n’ayez pas besoin de faire de la neuroscience. »

L’une des préoccupations de cette approche est qu’elle pourrait éliminer certains des comportements émergents qui rendent les LLM si intrigants : leur capacité à généraliser de nouvelles manières sur des choses pour lesquelles ils n’ont pas encore été formés. Adebayo affirme que cela se produit encore dans le modèle de son entreprise : son équipe suit ce qu’elle appelle les « concepts découverts » que le modèle a découverts tout seul, comme l’informatique quantique.

Événement Techcrunch

Boston, Massachusetts
|
9 juin 2026

Adebayo affirme que cette architecture interprétable sera quelque chose dont tout le monde aura besoin. Pour les LLM destinés aux consommateurs, ces techniques devraient permettre aux créateurs de modèles de faire des choses comme bloquer l’utilisation de matériels protégés par le droit d’auteur, ou de mieux contrôler les résultats sur des sujets comme la violence ou la toxicomanie. Les secteurs réglementés auront besoin de LLM plus contrôlables – par exemple en finance – où un modèle évaluant les demandeurs de prêt doit prendre en compte des éléments tels que les dossiers financiers, mais pas la race. Il existe également un besoin d’interprétabilité dans le travail scientifique, un autre domaine dans lequel Guide Labs a développé la technologie. Le repliement des protéines a été un grand succès pour les modèles d’apprentissage profond, mais les scientifiques ont besoin de mieux comprendre pourquoi leurs logiciels ont trouvé des combinaisons prometteuses.

« Ce modèle démontre que la formation de modèles interprétables n’est plus une sorte de science ; c’est désormais un problème d’ingénierie », a déclaré Adebayo. « Nous avons compris la science et nous pouvons les mettre à l’échelle, et il n’y a aucune raison pour que ce type de modèle ne corresponde pas aux performances des modèles de niveau frontière », qui ont beaucoup plus de paramètres.

Guide Labs affirme que Steerling-8B peut atteindre 90 % des capacités des modèles existants, mais utilise moins de données d’entraînement, grâce à sa nouvelle architecture. La prochaine étape pour l’entreprise, issue de Y Combinator et levé un tour de table de 9 millions de dollars auprès d’Initialized Capital en novembre 2024, consiste à construire un modèle plus large et à commencer à offrir un accès API et agent aux utilisateurs.

« La façon dont nous formons actuellement les modèles est super primitive, et donc démocratiser l’interprétabilité inhérente sera en fait une bonne chose à long terme pour notre rôle au sein de la race humaine », a déclaré Adebayo à TechCrunch. « Alors que nous recherchons ces modèles qui vont être super intelligents, vous ne voulez pas que quelque chose prenne en votre nom des décisions qui soient en quelque sorte mystérieuses pour vous. »

Source link

What's Hot

Les données montrent que le travail à distance est là pour rester même si les entreprises américaines s’efforcent de retourner dans leurs bureaux

Le PDG de la US Polo Association travaillait auparavant 90 heures par semaine, mais il quitte désormais son travail à 17h30. et il fait nuit le week-end.

Comment David Senra a créé un podcast que les PDG les plus puissants du monde ne peuvent cesser d’écouter

Guide Labs lance un nouveau type de LLM interprétable

Une nouvelle publicité de Google imagine une déclaration d’indépendance écrite avec l’aide de l’IA

Midjourney veut que les studios hollywoodiens révèlent les détails de leur utilisation de l’IA

Alibaba aurait interdit à ses employés d’utiliser Claude Code

Qu’est-ce que Mistral IA ? Tout savoir sur le concurrent OpenAI

Temasek continue de réduire sa participation dans PB Fintech en vendant des actions d’une valeur de 1 633 Cr

Mynd Fintech de M1xchange acquiert C2FO India

PB Fintech Block Deal : le cours de l’action chute de 8 % après le transfert d’actions d’une valeur de Rs 1 741 crore

Top Insights

Les données montrent que le travail à distance est là pour rester même si les entreprises américaines s’efforcent de retourner dans leurs bureaux

Le PDG de la US Polo Association travaillait auparavant 90 heures par semaine, mais il quitte désormais son travail à 17h30. et il fait nuit le week-end.

Comment David Senra a créé un podcast que les PDG les plus puissants du monde ne peuvent cesser d’écouter

What's Hot

Guide Labs lance un nouveau type de LLM interprétable

Related Posts

Subscribe to Updates