Avec autant d’argent qui afflue dans les startups d’IA, c’est le bon moment pour devenir un chercheur en IA avec une idée à tester. Et si l’idée est suffisamment nouvelle, il pourrait être plus facile d’obtenir les ressources dont vous avez besoin en tant qu’entreprise indépendante plutôt que dans l’un des grands laboratoires.
C’est l’histoire d’Inception, une startup développant des modèles d’IA basés sur la diffusion qui vient de lever 50 millions de dollars en financement de démarrage dirigé par Menlo Ventures, avec la participation de Mayfield, Innovation Endeavors, NVentures de Nvidia, le fonds M12 de Microsoft, Snowflake Ventures et Databricks Investment. Andrew Ng et Andrej Karpathy ont fourni un financement providentiel supplémentaire.
Le chef du projet est Stefano Ermon, professeur à Stanford, dont les recherches se concentrent sur les modèles de diffusion, qui génèrent des résultats par affinement itératif plutôt que mot par mot. Ces modèles alimentent des systèmes d’IA basés sur l’image comme Stable Diffusion, Midjourney et Sora. Ayant travaillé sur ces systèmes avant que le boom de l’IA ne les rende passionnants, Ermon utilise Inception pour appliquer les mêmes modèles à un plus large éventail de tâches.
Parallèlement à ce financement, la société a publié une nouvelle version de son modèle Mercury, conçue pour le développement de logiciels. Mercury a déjà été intégré à un certain nombre d’outils de développement, notamment ProxyAI, Buildglare et Kilo Code. Plus important encore, Ermon affirme que l’approche de diffusion aidera les modèles d’Inception à conserver deux des mesures les plus importantes : la latence (temps de réponse) et le coût de calcul.
« Ces LLM basés sur la diffusion sont beaucoup plus rapides et beaucoup plus efficaces que ce que tout le monde construit aujourd’hui », explique Ermon. « Il s’agit simplement d’une approche complètement différente dans laquelle de nombreuses innovations peuvent encore être apportées. »
Comprendre la différence technique nécessite un peu de contexte. Les modèles de diffusion sont structurellement différents des modèles d’auto-régression, qui dominent les services d’IA basés sur du texte. Les modèles d’auto-régression comme GPT-5 et Gemini fonctionnent de manière séquentielle, prédisant chaque mot ou fragment de mot suivant en fonction du matériel précédemment traité. Les modèles de diffusion, entraînés pour la génération d’images, adoptent une approche plus holistique, modifiant progressivement la structure globale d’une réponse jusqu’à ce qu’elle corresponde au résultat souhaité.
La sagesse conventionnelle consiste à utiliser des modèles d’auto-régression pour les applications textuelles, et cette approche a connu un énorme succès pour les dernières générations de modèles d’IA. Mais un nombre croissant de recherches suggèrent que les modèles de diffusion peuvent être plus performants lorsqu’un modèle traite de grandes quantités de texte ou gère des contraintes de données. Comme le dit Ermon, ces qualités deviennent un réel avantage lors de l’exécution d’opérations sur de grandes bases de code.
Événement Techcrunch
San Francisco
|
13-15 octobre 2026
Les modèles de diffusion offrent également plus de flexibilité dans la manière dont ils utilisent le matériel, un avantage particulièrement important à mesure que les exigences en matière d’infrastructure de l’IA deviennent claires. Là où les modèles d’auto-régression doivent exécuter des opérations les unes après les autres, les modèles de diffusion peuvent traiter de nombreuses opérations simultanément, permettant ainsi une latence considérablement plus faible dans les tâches complexes.
« Nous avons été évalués à plus de 1 000 jetons par seconde, ce qui est bien plus élevé que tout ce qui est possible avec les technologies autorégressives existantes », explique Ermon, « parce que notre système est conçu pour être parallèle. Il est conçu pour être vraiment, très rapide. »

