
Aditya Naganath, associé chez Kleiner Perkins, réfléchissait depuis des mois à une thèse d’investissement : la prochaine vague d’IA ne serait pas celle des chatbots, mais des logiciels qui exécutent de manière autonome des milliers de tâches à la fois pendant des heures. Le problème était que personne n’avait encore construit la plomberie. Puis il a rencontré Neil Mova.
« Il nous semblait clair à tous les deux que nous avions besoin d’une autre plate-forme d’inférence spécialisée conçue pour ces agents à long terme », a déclaré Nanas à Fortune.
Six mois après la première conversation entre Naganath et Movva, Fortune a appris en exclusivité que la startup de Movva, Sail Research, s’était lancée furtivement avec 80 millions de dollars de financement d’amorçage et de série A pour une valorisation de 450 millions de dollars. Kleiner Perkins a dirigé la série A. Sequoia, Redpoint, Theory Ventures, Vine Ventures et CRV ont également participé.
Sail Research veut résoudre l’un des problèmes coûteux de l’IA. L’infrastructure d’IA a été conçue pour un échange rapide et unique. Imaginez un chatbot qui répond aux questions. Mais les entreprises déploient de plus en plus d’agents d’IA capables de fonctionner de manière autonome pendant des heures, lisant des bases de code entières, passant au crible des centaines de candidats et effectuant des recherches sur des sujets complexes sans intervention humaine. À cette échelle, les flux de travail des agents consomment des jetons 50 à 500 fois plus rapidement qu’un simple chat, de sorte que les factures d’IA de l’entreprise sont triplées même si le prix par jeton diminue. Goldman Sachs prédit que la consommation de jetons augmentera 24 fois d’ici 2030.
La solution de Movva est une plate-forme d’infrastructure de bout en bout construite à partir du niveau le plus bas d’une puce. Sail crée un logiciel qui ajuste et optimise la façon dont les modèles d’IA s’exécutent sur les puces existantes. Considérez-le comme un système de trafic très efficace qui indique au matériel exactement comment allouer les ressources, exploitant ainsi beaucoup plus de travail avec la même puissance de calcul physique.
La plupart des plates-formes de services d’IA sont optimisées pour une faible latence. Cela signifie que nous accordons la priorité à l’obtention de réponses rapides. Sail fait le contraire, en intégrant beaucoup plus de travail informatique dans chaque unité de puissance au détriment de la réactivité en temps réel. Ce compromis est intentionnel ; Sail ne peut pas alimenter les assistants vocaux ou les chatbots en direct. Mais qu’en est-il des agents qui courent pendant des heures ? Movva affirme que les clients constatent souvent des améliorations de coûts de 3 à 10 fois par rapport aux alternatives comparables.
« Nous ne nous soucions que de l’efficacité », a déclaré Mova à Fortune. « Il est très difficile de créer un moteur d’inférence qui prend en compte à la fois le débit et la latence. D’autres sociétés optimisent la latence, mais nous ne nous soucions que du débit. »
Movva, 28 ans, est l’un des rares ingénieurs à avoir travaillé sur chaque couche importante de la pile d’IA. Il a vu NVIDIA passer des puces de jeu au silicium IA en 2016 et 2017. Il a rejoint Apple pour développer des puces qui alimentent la vision par ordinateur dans un milliard d’iPhone. Puis, frustrés, les ambitions d’Apple ont culminé avec les Animoji, des personnages animés que les utilisateurs peuvent appliquer sur FaceTime. De là, il est allé chez Together AI, l’un des principaux fournisseurs d’inférence de modèles open source, pour revenir au travail au niveau GPU. Ce qu’il y vit incarnait la théorie de Sail. Togetherter a été conçu pour les applications interactives et nous avons fait tous les compromis architecturaux en conséquence. Les agents ayant un horizon à long terme avaient besoin de quelque chose à construire à partir de zéro avec des priorités différentes.
Le co-fondateur et CTO Samir Menon vient également d’Apple, où il a travaillé dans l’ingénierie de sécurité à grande échelle. Les deux se sont rencontrés le premier jour de leur première année à l’Université de Stanford. Ils ont suivi les mêmes cours et rencontré le même conseiller pédagogique. Mova plaisante en disant que Menon a fait un peu mieux. Ils se sont réunis fin 2025 pour reconstruire leur pile d’inférence à partir de zéro.
Sail a lancé son service d’inférence en mars et a déjà commencé à traiter des milliards de jetons chaque semaine. L’un de nos premiers clients, Detail.dev, utilise Sail pour exécuter un agent de révision de code qui passe trois à quatre heures (parfois plus) à parcourir l’intégralité de sa base de code, à la recherche de bogues qui seraient manqués lors d’une révision de cinq minutes. « La richesse des jetons que nous proposons nous permet d’être aussi ambitieux que possible dans la façon dont nous analysons notre base de code », a déclaré Movva.
Mais les risques concurrentiels sont réels. Together AI est une société historique solide et une société du portefeuille de Kleiner Perkins. Selon Naganath, les deux ne sont pas en conflit. Togetherter possède un marché interactif basé sur le chat. Sail possède des charges de travail d’agent de longue durée. « Être précis et déterminé sera gagnant à long terme », dit-il. Une menace plus importante pourrait provenir de laboratoires pionniers comme Anthropic, OpenAI et Google. Ces laboratoires construisent leur propre infrastructure d’inférence et pourraient, en théorie, banaliser la couche sur laquelle Sail parie.
Réfutation de Movva : les prix des jetons sont restés stables ou ont augmenté au cours des six derniers mois, la demande informatique augmente plus rapidement que l’offre et le monde a besoin de personnes qui s’efforcent sans relâche d’extraire le maximum d’intelligence de chaque GPU disponible. « Nous ressentons une douleur émotionnelle lorsque nous voyons des GPU inutilisés ou gaspillés de quelque manière que ce soit », a-t-il déclaré.
L’argument haussier de Naganath est simple. « La conviction que l’inférence deviendra un marché 10, voire 100 fois plus important qu’il ne l’est aujourd’hui. »

