La demande croissante d’ordinateurs pour exécuter des modèles d’IA n’a fait que s’accélérer, mais il existe deux obstacles majeurs que tout acteur de l’entreprise doit surmonter : obtenir les bonnes puces et les intégrer dans des centres de données où ils peuvent commencer à générer des revenus.
General Compute, un nouveau néocloud d’inférence – une entreprise qui loue de la puissance de traitement de l’IA, spécialisée dans la phase où les modèles s’exécutent et répondent aux utilisateurs plutôt que d’être formés – a des réponses à ces questions qui éclairent la direction que prend l’écosystème de l’IA. Ces réponses l’ont aidé à lever un tour de table de 15 millions de dollars pour une valorisation post-financement de 60 millions de dollars, dirigé par FUSE VC avec la participation de Carya Venture Partners et Village Global Ventures.
Tout d’abord, quelle est la bonne puce ? La demande de GPU a explosé, mais il devient de plus en plus communément admis qu’ils ne sont pas les puces les mieux adaptées pour exécuter des modèles d’IA une fois qu’ils ont été entraînés. La phase de l’IA où un modèle génère activement des réponses a des exigences informatiques différentes de celles de la formation, et une nouvelle classe de puces est conçue spécifiquement pour cela. La transaction Groq de 20 milliards de dollars de Nvidia en décembre et l’introduction en bourse de 57 milliards de dollars de Cerebras la semaine dernière montrent la voie.
Les capacités de ces deux sociétés étant limitées, les cofondateurs de General Compute, le PDG Finn Puklowski et le directeur technique Jason Goodison, ont trouvé une autre option. Ils se tournent vers des puces spécialisées construites par SambaNova, un fabricant de puces soutenu par Intel et axé sur l’inférence qui est un peu en dehors des discussions de la Silicon Valley.
Cela pourrait changer lorsque SambaNova lancera ses nouvelles puces cette année. L’architecture est plus flexible et utilise plus de mémoire pour stocker le contexte lors des calculs d’inférence, et SambaNova affirme qu’elle surpasse non seulement les GPU mais également d’autres puces spécialisées construites par Groq ou Cerebras. Puklowski affirme que les nouvelles puces généreront 600 à 700 jetons par seconde, contre environ 250 jetons par seconde pour les GPU.
General Compute a commandé pour 300 millions de dollars de puces SN50 de la société et affirme qu’il sera le premier néocloud à les déployer.
Ces puces aident également à résoudre le deuxième gros problème du calcul général : où les placer ?
Puklowski poursuit des accords de colocation – des accords dans lesquels General Compute installe son matériel dans les installations de quelqu’un d’autre – non seulement avec des fournisseurs de centres de données, mais également avec des mineurs de crypto qui cherchent à réutiliser leur infrastructure, car le coût de production d’un bitcoin a souvent dépassé son prix.
General Compute a lancé son offre cloud la semaine dernière, affirmant qu’elle est déjà la plus rapide à exécuter MiniMax 2.7, un puissant LLM open source.
Joe Hasselmann est un investisseur en capital-risque qui a été au premier plan du boom de l’inférence lorsqu’il a investi dans Groq en 2021. Cette année, il a lancé un nouveau fonds, Evercrest Capital Partners, axé sur l’espace de l’IA, et a fait de General Compute son premier investissement. Hassleman voit dans le partenariat de SambaNova avec General Compute des parallèles avec la relation de Coreweave avec Nvidia – et avec l’association de la fabrication de puces de Groq avec son ancienne offre cloud.
« Ils ont besoin d’un mélange sain de clients qui placeront leurs puces dans des environnements qui connaîtront une forte croissance », a déclaré Hassleman. « Autant General Compute parie sur SambaNova, autant SambaNova parie sur General Compute. »
La question est de savoir quel type d’architecture informatique captera le plus de valeur dans le futur de l’IA. Les nuages d’inférence sont des paris implicites sur un monde de modèles et d’agents multiples, dans lequel aucun fournisseur unique ne domine et où la vitesse et le coût de l’inférence deviennent les principales variables concurrentielles. Considérez les 113 millions de dollars de série B levés pour OpenRouter cette semaine, reflétant la capacité de l’entreprise à offrir aux clients l’accès à plusieurs modèles afin d’optimiser leurs dépenses en jetons.
La vitesse compte dans ce calcul, pour le prix et pour la capacité. Puklowski souhaite transformer les charges de travail d’une heure pour les agents de codage en tâches de cinq ou dix minutes et rendre les agents audio pour le service client, qui nécessitent une inférence plus rapide pour converser efficacement, plus économiques.
« Si vous utilisez ChatGPT et qu’il vous donne 50 jetons par seconde, c’est encore beaucoup plus rapide que ce que nous pouvons lire », a déclaré Puklowski à TechCrunch, « Maintenant que les choses sont passées d’agent à agent, où les agents lisent en notre nom ou cinglent des bases de données, ils doivent aller plus vite. »
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

