Le boom de l’IA repose sur une hypothèse de base : les modèles plus gros sont plus puissants, et les modèles les plus puissants gagnent. Aujourd’hui, l’industrie est sur le point de comprendre ce qui se passerait si cette hypothèse commençait à se briser.
Les coûts de montage ont déjà poussé les utilisateurs à revoir les modèles plus petits et moins chers. Cette recherche de modèles soucieuse des coûts est nouvelle et on ne sait pas exactement comment elle affectera l’industrie, mais l’impact sera probablement significatif.
Une prédiction, mieux formulée par le co-fondateur de Coinbase, Brian Armstrong, est que cela entraînera le transfert de la grande majorité des tâches vers des modèles moins chers.
« La demande d’intelligence est presque infinie, mais 80 % des charges de travail fonctionneront sur des modèles 99 % moins chers d’ici 12 à 18 mois », a écrit Armstrong sur X. « 20 % des charges de travail fonctionneront toujours sur des modèles de dernière génération où l’optimisation du QI est importante.
Il est difficile d’exagérer à quel point ce sera un changement important pour l’industrie de l’IA si la prédiction d’Armstrong se réalise.
Jusqu’à présent, la plupart des sociétés d’IA rivalisaient sur la qualité, ce qui signifiait recourir par défaut au modèle disponible le plus avancé. Si ces mêmes tâches pouvaient être assurées par des modèles moins chers sans affecter la qualité, cela signifierait un changement massif dans l’économie de l’IA. Et surtout, une grande partie des économies proviendrait des poches des grands laboratoires, ce qui porterait un coup financier à OpenAI et Anthropic au moment même où ils se dirigent vers leur introduction en bourse.
Il s’agit d’un changement potentiellement sismique dans l’industrie, qui repose sur une question fondamentale : les entreprises sont-elles prêtes à passer à des modèles plus petits ?
Les premiers tests suggèrent que, lorsque le système est correctement configuré, des modèles moins chers pourraient s’y substituer sans aucun sacrifice en matière de qualité. Lors d’un test récent réalisé par l’outil d’IA juridique Harvey, l’entreprise a pu réduire les coûts d’inférence de 3 fois sans réduire la qualité. Le test, réalisé en partenariat avec la plateforme d’inférence Fireworks AI, combinait Claude Opus et le GLM 5.1 de Fireworks, et basculait vers Opus pour les tâches les plus intensives. Le résultat a été une charge nettement inférieure en termes de temps de serveur et de coût global.
« La qualité passe avant tout, et en matière juridique, elle le sera toujours », a déclaré à TechCrunch le co-fondateur de Harvey, Gabe Pereyra, faisant référence aux services juridiques d’IA fournis par sa startup. « Cependant, la définition de la qualité évolue, passant de la simple utilisation du modèle le plus puissant pour tout, à l’utilisation du meilleur modèle qui obtient la bonne réponse le plus efficacement possible. »
Cette tendance est souvent présentée en termes de grands laboratoires par rapport aux modèles chinois ou à ceux à poids ouvert, mais cela passe à côté de l’essentiel. La véritable fracture ne se situe pas entre les modèles propriétaires et ouverts ; c’est entre les grands modèles et les petits. Vous pouvez économiser de l’argent en passant de GPT-5.5 au Flash V4 de DeepSeek, mais le passage à GPT-5.4-mini fonctionne tout aussi bien.
Il y a une guerre des prix active entre les déductions internes des grands laboratoires et les modèles ouverts indépendants. Pour la plus grande question du petit ou du grand, le type de petit modèle qui l’emporte n’a pas vraiment d’importance.
Tout cela peut sembler évident (bien sûr, vous ne devriez pas utiliser plus de calcul que nécessaire) mais cela va à l’encontre de l’approche axée sur la mise à l’échelle qui a dominé le secteur jusqu’à présent. Inspirés par cette amère leçon, les laboratoires se sont efforcés de former les modèles les plus gourmands en calcul possibles, repoussant ainsi les limites de ce que les modèles d’IA peuvent faire. Avec des prix fortement subventionnés par les investisseurs, les clients n’avaient aucune raison de choisir autre chose que l’option la plus avancée.
Avec la hausse des prix symboliques et le ralentissement des subventions, les utilisateurs sont pour la première fois confrontés à une pression sur les coûts. Nous ne savons pas si la nouvelle pression sur les coûts poussera réellement les utilisateurs professionnels vers des modèles plus petits. Ils pourraient tout aussi bien économiser en passant moins d’appels, en utilisant moins de contexte ou tout simplement en renonçant aux déploiements les moins prometteurs.
Mais s’il s’avère que la plupart des déploiements peuvent tout aussi bien être exécutés sur un modèle plus petit, cela pourrait sérieusement freiner la demande croissante d’inférence – et soulever de nouvelles questions sur la manière de justifier le coût de formation d’un modèle frontière.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

