Mercredi, OpenAI a dévoilé son premier processeur d’inférence sur mesure, conçu et fabriqué en collaboration avec Broadcom. Nommé Jalapeño, le nouveau processeur a été conçu spécifiquement pour les besoins uniques des systèmes d’inférence d’OpenAI. Les propres modèles d’IA d’OpenAI ont contribué au développement de la puce, a indiqué la société.
Bien que la puce soit encore en cours de test, OpenAI affirme que les premiers résultats montrent des performances par watt nettement meilleures que les alternatives de pointe actuelles.
Le partenariat a été officiellement annoncé en octobre, mais les rumeurs disent depuis longtemps que les projets de puces d’OpenAI seraient un moyen de réduire la dépendance de l’entreprise à l’égard des GPU de Nvidia. Google et Amazon ont tous deux construit des puces personnalisées dans un but similaire, souvent appelées « accélérateurs d’IA » : du silicium spécialement conçu pour accélérer les charges de travail d’apprentissage automatique.
Le président d’OpenAI, Greg Brockman, a expliqué l’approche de l’entreprise en matière de développement de puces sur son podcast interne, peu de temps après l’annonce du partenariat avec Broadcom.
« Nous avons une compréhension approfondie de la charge de travail », a déclaré Brockman dans l’épisode. « Nous recherchons vraiment des charges de travail spécifiques qui sont mal desservies et (et nous nous demandons) comment pouvons-nous créer quelque chose qui sera capable d’accélérer ce qui est possible ? »
Jalapeño est spécialement conçu pour l’inférence, le processus d’exécution de modèles d’IA prédéfinis en réponse aux commandes de l’utilisateur. Dans l’annonce, OpenAI a souligné le faible coût d’exploitation de la puce lors de l’exécution de modèles de codage en temps réel. Il est probable que les tâches plus gourmandes en performances, comme la pré-formation, reposeront toujours sur le matériel Nvidia, mais même de petites réductions des coûts d’inférence pourraient contribuer grandement à améliorer les résultats de l’entreprise.
L’optimisation de ce système d’inférence pourrait s’avérer être un facteur crucial pour l’avenir économique de l’IA – et cela se produira probablement à tous les niveaux de la pile. OpenAI construit déjà des produits agentiques comme Codex et les modèles qui les alimentent, ainsi que des centres de données pour exécuter ces modèles. Le passage à des puces spécialement conçues permet à l’entreprise d’aller encore plus loin dans ce processus, comme l’entreprise l’a expliqué dans son annonce.
« OpenAI ne se contente pas de développer des modèles de pointe ou de construire des produits par-dessus ; elle conçoit l’infrastructure qui se trouve en dessous : architecture des puces, noyaux, systèmes de mémoire, mise en réseau, planification, systèmes de déploiement et expérience produit », a écrit la société. « Étant donné qu’OpenAI fonctionne sur l’ensemble de la pile, chaque couche peut être optimisée autour du même objectif : rendre ses modèles plus rapides, plus fiables et plus abordables pour les utilisateurs. »
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

