La startup d’IA Decart a dévoilé mercredi Oasis 3, son dernier modèle mondial interactif capable de générer des environnements de conduite photoréalistes en temps réel, a appris TechCrunch en exclusivité. Le modèle est actuellement disponible via API.
La startup cible initialement les constructeurs de véhicules autonomes qui ont besoin de simuler des scénarios de conduite rares à grande échelle, et prévoit de se développer dans la robotique et d’autres applications physiques d’IA. Mais le plus gros pari est sur les développeurs : en offrant un accès aux API dès le premier jour, Decart tente de construire un écosystème de développeurs autour de modèles mondiaux, un peu comme l’a fait OpenAI avec les modèles de langage.
« Ce sera le premier modèle mondial utilisable sur lequel les gens pourront réellement programmer », a déclaré à TechCrunch Dean Leitersdorf, co-fondateur et PDG de Decart. « Je pense qu’il y aura toute une communauté de développeurs qui émergera de cela. »
La startup dispose déjà d’une communauté de plus de 100 000 développeurs, dont beaucoup construisent des produits sur son modèle vidéo en temps réel Lucy, principalement dans le commerce électronique et le streaming en direct. Oasis 3 est basé sur ce modèle de base et représente la poussée de l’entreprise vers l’IA physique. L’accès est facturé 0,02 $ par seconde, et les tarifs d’entreprise dépendent des cas d’utilisation, a déclaré Decart.
Decart joue dans une arène mondiale de plus en plus remplie. L’année dernière, Google a publié Genie 3 en avant-première de recherche, World Labs de Fei-Fei Li a lancé Marble pour des cas d’utilisation commerciale, et des startups de génération vidéo comme Luma et Runway traduisent également leurs modèles vidéo sensibles à la physique en modèles mondiaux.

La sortie d’Oasis 3 intervient quelques semaines après que Decart, âgé de deux ans, a levé 300 millions de dollars, ce qui, selon Leitersdorf, faisait suite à « une énorme augmentation de la demande pour les modèles que nous avons construits » dans le commerce électronique, le streaming en direct et l’IA physique. Le cycle a porté la valorisation de Decart à près de 4 milliards de dollars et a attiré une série d’investisseurs stratégiques tels que Toyota, Adobe et eBay. Toutes ces entreprises sont des clients potentiels, estime Leitersdorf. Nvidia, un investisseur existant, a également participé au tour de table.
L’avantage d’Oasis 3 réside dans le photoréalisme de ses modèles et sa capacité de génération infinie. Cela est dû à une certaine efficacité de la part de Decart, alimentée par l’autre produit principal de la société : le logiciel DOS (Decart Optimization Stack) qui permet aux modèles de fonctionner efficacement sur le matériel Nvidia, Amazon et Google, rendant ses modèles beaucoup moins coûteux à exécuter que ses concurrents.
« Ceci est construit sur l’ensemble de notre pile en temps réel, que nous optimisons jusqu’au matériel », a déclaré Leitersdorf. « Grâce à notre intégration verticale, nous sommes en mesure d’être bien moins chers que n’importe qui d’autre dans l’industrie pour faire fonctionner ces modèles. »
Les modèles de la startup sont si efficaces, selon Leitersdorf, qu’elle a dépensé « considérablement moins » de 100 millions de dollars au cours de sa vie.
Oasis 3 génère des environnements multi-caméras physiquement précis – une face avant et deux faces latérales – pour la formation et les tests des systèmes. Et au lieu de proposer des démos limitées et des aperçus de recherche, Decart permet aux développeurs de générer des scénarios à l’infini, ce qui est parfait pour les développeurs de véhicules autonomes qui cherchent à essayer autant de cas extrêmes que possible.
Comparé à d’autres modèles que j’ai essayés, comme le Genie 3 de Google ou le Marble de World Labs, Oasis 3 offre les environnements les plus photoréalistes à partir d’une seule invite de texte que j’ai vue. Et le fait que vous puissiez interagir avec eux pendant des heures suggère un niveau d’efficacité qui pourrait manquer aux concurrents de Decart.
Mais en vous permettant de générer un monde pendant si longtemps, le modèle se dégrade également considérablement.

Lors de mes tests, j’ai constaté que le système pouvait systématiquement créer une scène initiale forte qui correspond à l’invite, mais l’intégrité thématique se dégradait rapidement à mesure que je me déplaçais dans le monde. Je lui ai demandé de générer une rue de New York le matin, et il l’a fait à merveille. Mais au fur et à mesure que je roulais, l’environnement ressemblait moins à New York qu’à une version standard de n’importe quelle ville urbaine occidentale.
Lorsque j’ai essayé de faire demi-tour et de revenir à l’intersection initiale, elle avait disparu, remplacée par un environnement entièrement nouveau. En plus de cela, les commandes ne sont pas très réactives et j’ai souvent perdu le contrôle de l’endroit où la voiture se déplaçait (encore une fois, un inconvénient partagé par d’autres modèles mondiaux que j’ai testés). L’expérience ressemblait moins à une simulation cohérente qu’à un flux de conscience onirique et disjoint qui devient rapidement absurde.
Un autre problème, que j’ai également constaté dans d’autres modèles mondiaux, est que la voiture se contente de traverser d’autres voitures, ce qui signifie que le modèle ne simule pas correctement la physique de l’environnement. Leitersdorf appelle cela un « problème de recherche majeur que nous résolvons maintenant », l’attribuant au fait qu’« il y a considérablement plus de données sur la bonne conduite que sur les accidents ».
Une partie de ce qui rend cette difficulté de cohérence physique est fondamentale dans le fonctionnement de ce modèle mondial. Oasis 3 est auto-régressif, ce qui signifie qu’il génère une image à la fois et revient sur ce qu’il a généré précédemment pour décider de la suite. Il s’agit d’une caractéristique architecturale clé de nombreux modèles mondiaux, et elle nécessite également beaucoup de calcul.

Afin de maintenir la cohérence, Leitersdorf affirme que l’équipe Decart travaille à améliorer la longueur de la mémoire du modèle.
« Chaque image que nous générons représente environ 8 000 jetons », a-t-il déclaré. « Générer cela à des dizaines d’images par seconde, cela représente des centaines de milliers de jetons par seconde. La fenêtre de contexte se remplit très rapidement. Nous recherchons comment créer un contexte plus long pour stocker des millions de jetons supplémentaires et comment compresser la mémoire en moins de jetons. »
Leitersdorf pense que le problème de cohérence pourrait être partiellement résolu dans la prochaine version du modèle, qui permettra aux utilisateurs de commencer à générer des mondes basés sur une vidéo d’un environnement plutôt que sur une image. Il a reconnu que les modèles mondiaux en tant que domaine sont encore précoces.
Pourtant, le fondateur se concentre moins sur les limites actuelles de sa technologie que sur ce qui se passera lorsque les développeurs mettront la main dessus.
« Cela me ramène aux débuts des LLM, lorsque OpenAI a inventé l’API pour les modèles », a-t-il déclaré, soulignant l’émergence d’une communauté de développeurs qui a fait progresser le domaine en trouvant et en créant de nouveaux cas d’utilisation.
« Lorsque nous nous reparlerons dans trois mois, nous dirons : « Voici 100 développeurs qui ont tous construit 100 applications différentes avec Oasis, ce qui nous a tous surpris » », a-t-il déclaré.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

