Chaque fois que vous posez une question à ChatGPT, votre demande déclenche une course de relais de données. Les informations quittent la mémoire, passent par un processeur pour le prétraitement, se déplacent vers un GPU pour des calculs lourds, puis reviennent – et tout ce voyage se répète pour chaque mot généré par l’IA.
Le goulot d’étranglement est structurel : il nécessite le passage par certaines des puces les plus chères et les plus gourmandes en énergie du secteur pour chaque demande. C’est exactement ce que XCENA, une start-up possédant des bureaux en Corée du Sud et aux États-Unis, tente de résoudre. La startup âgée de quatre ans a conçu une puce qui rapproche beaucoup les capacités de calcul de la DRAM – les puces de mémoire rapides et à court terme qui stockent les données qu’un processeur utilise activement – permettant de gérer les opérations de données de routine à proximité de la mémoire, sans les allers-retours coûteux entre les processeurs, les GPU et la mémoire.
Si cela fonctionne à grande échelle, les implications sur les coûts d’infrastructure de l’IA pourraient être importantes, ce qui explique en grande partie l’enthousiasme des investisseurs dans tout le pays. En effet, XCENA vient de lever 135 millions de dollars dans le cadre d’une série B pour une valorisation de 570 millions de dollars, portant le total levé à 185 millions de dollars.
Le PDG de XCENA, Jin Kim, a cofondé la startup en 2022 aux côtés du CTO Dohun Kim et du CPO Harry Juhyun Kim, tous vétérans de Samsung et SK Hynix, les géants de la mémoire qui fournissent les puces alimentant les GPU de Nvidia. « Les CPU et les GPU sont devenus plus intelligents au fil des décennies. La mémoire ne l’a jamais été. XCENA veut changer cela », a déclaré Kim dans une interview avec TechCrunch. « La récente hausse des prix de la mémoire et des stocks associés indique une évolution plus large de l’infrastructure de l’IA vers des architectures centrées sur la mémoire », a-t-il ajouté. (Ce mois-ci, les trois sociétés qui dominent le marché mondial des puces mémoire – Samsung, SK Hynix et Micron – ont chacune franchi pour la première fois une valorisation de mille milliards de dollars.)
XCENA mise sur la thèse selon laquelle « l’inférence n’est pas seulement un problème de calcul ; c’est de plus en plus un problème de mise à l’échelle de la mémoire », a déclaré Kim.
La puce de XCENA, la MX1, se connecte au processeur via CXL (Compute Express Link) – essentiellement une voie express dédiée entre le processeur et la mémoire – traitant les données avant qu’elles n’aient besoin de quitter le module de mémoire. Il apporte le calcul aux données, et non l’inverse. La société affirme que ce qui nécessitait auparavant 10 serveurs pourrait potentiellement fonctionner sur un seul.
« Bien que les GPU excellent dans la multiplication matricielle – les mathématiques lourdes derrière la formation des modèles d’IA – une grande partie de l’orchestration des données environnantes, y compris le prétraitement, la gestion du cache KV (le système qui stocke le contexte de conversation antérieur afin qu’un modèle n’ait pas à le retraiter) et la mise en cache des données, fonctionne toujours sur les processeurs. Notre puce gère ces tâches directement dans le module de mémoire lui-même », a déclaré Kim.
La demande de solutions de mémoire a augmenté depuis le second semestre de l’année dernière et la société estime que le moment joue en sa faveur.
Les conversations avec plusieurs fournisseurs mondiaux de mémoire n’en sont qu’à leurs débuts, bien que Kim ait refusé de les nommer. Les clients idéaux de l’entreprise sont les hyperscalers qui dépensent des dizaines de milliards par an en infrastructure d’IA, où même un petit gain d’efficacité de la mémoire peut signifier des centaines de millions d’économies.
Le MX1 est encore un prototype. Les puces de production de masse devraient sortir des lignes de fonderie de Samsung d’ici la fin de 2026, la société espérant générer des revenus à partir de 2027.
Alors que les fabricants d’unités de traitement neuronal (NPU) rivalisent pour concurrencer Nvidia en matière de charges de travail de formation, XCENA cible la couche gourmande en mémoire qui se trouve sous tout cela.
Les concurrents les plus proches de XCENA incluent Astera Labs et Marvell, deux sociétés cotées au Nasdaq qui travaillent sur la connectivité mémoire de nouvelle génération. Marvell est un acteur important et bien établi qui travaille déjà dans le même espace, a déclaré Kim, ajoutant que le différenciateur se résume à la propriété intellectuelle. « Nous avons des milliers de cœurs », a déclaré Kim. Basée sur les spécifications publiques, l’approche de Marvell se rapporte par comparaison à une poignée de cœurs à usage général.
Ces cœurs sont construits sur RISC-V – un modèle de conception de puce open source – et optimisés spécifiquement pour le traitement des données, chaque cœur étant délibérément gardé petit et efficace. Au-delà des cœurs eux-mêmes, XCENA conçoit sa propre hiérarchie de mémoire interne, son bus d’interconnexion et son contrôleur DRAM – un niveau d’intégration verticale que la plupart des fabricants de puces, y compris les plus grands concurrents, sous-traitent généralement.
Les sociétés de capital-risque basées à Séoul, Altinum et IMM Investment, ont codirigé le cycle de série B, aux côtés de Corstone Asia et des investisseurs existants SBI Investment et Mirae Asset Capital. La société, qui compte plus de 90 employés répartis dans ses bureaux de Pangyo, un pôle technologique à l’extérieur de Séoul, et de Sunnyvale, est également en pourparlers avec des investisseurs internationaux au sujet de financements supplémentaires.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

