Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Wisk Aero, propriété de Boeing, accusé d’avoir licencié un manager qui avait soulevé des problèmes de sécurité

juillet 2, 2026

La société a levé 400 millions de dollars après avoir fusionné jeudi avec un véhicule d’acquisition à vocation spéciale.

juillet 2, 2026

« Plus pétillant que scintillant » : le rapport sur l’emploi de juin ne parvient pas à déclencher le feu d’artifice du 4 juillet

juillet 2, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les modèles d’IA exécutés se transforment en un jeu de mémoire
Startups

Les modèles d’IA exécutés se transforment en un jeu de mémoire

JohnBy Johnfévrier 17, 2026Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Lorsque nous parlons du coût de l’infrastructure d’IA, l’accent est généralement mis sur Nvidia et les GPU, mais la mémoire joue un rôle de plus en plus important. Alors que les hyperscalers se préparent à construire de nouveaux centres de données valant des milliards de dollars, le prix des puces DRAM a été multiplié par environ 7 au cours de la dernière année.

Dans le même temps, il existe une discipline croissante dans l’orchestration de toute cette mémoire pour garantir que les bonnes données parviennent au bon agent au bon moment. Les entreprises qui le maîtrisent pourront effectuer les mêmes requêtes avec moins de jetons, ce qui peut faire la différence entre se retirer et rester en activité.

L’analyste des semi-conducteurs Doug O’Laughlin a un regard intéressant sur l’importance des puces mémoire sur son Substack, où il s’entretient avec Val Bercovici, directeur de l’IA chez Weka. Ce sont tous deux des spécialistes des semi-conducteurs, donc l’accent est davantage mis sur les puces que sur l’architecture plus large ; les implications pour les logiciels d’IA sont également assez importantes.

J’ai été particulièrement frappé par ce passage, dans lequel Bercovici examine la complexité croissante de la documentation de mise en cache d’invite d’Anthropic :

Le problème est que nous allons sur la page de tarification de la mise en cache rapide d’Anthropic. Cela a commencé comme une page très simple il y a six ou sept mois, surtout au moment du lancement de Claude Code : il suffit de « utilisez la mise en cache, c’est moins cher ». Il s’agit désormais d’une encyclopédie de conseils sur le nombre exact d’écritures de cache à pré-acheter. Vous disposez de niveaux de 5 minutes, très courants dans le secteur, ou de niveaux d’une heure, et rien de plus. C’est un message vraiment important. Bien sûr, vous disposez de toutes sortes d’opportunités d’arbitrage autour de la tarification des lectures de cache en fonction du nombre d’écritures de cache que vous avez pré-achetées.

La question ici est de savoir combien de temps Claude conserve votre invite dans la mémoire cache : vous pouvez payer pour une fenêtre de 5 minutes, ou payer plus pour une fenêtre d’une heure. Il est beaucoup moins coûteux d’exploiter des données qui sont encore dans le cache, donc si vous les gérez correctement, vous pouvez économiser énormément. Il y a cependant un problème : chaque nouveau bit de données que vous ajoutez à la requête peut faire sortir quelque chose d’autre de la fenêtre du cache.

C’est une tâche complexe, mais le résultat est assez simple : la gestion de la mémoire dans les modèles d’IA constituera une partie importante de l’IA à l’avenir. Les entreprises qui le font bien vont se hisser au sommet.

Et de nombreux progrès restent à faire dans ce nouveau domaine. En octobre, j’ai couvert une startup appelée Tensormesh qui travaillait sur une couche de la pile connue sous le nom d’optimisation du cache.

Événement Techcrunch

Boston, Massachusetts
|
23 juin 2026

Des opportunités existent dans d’autres parties de la pile. Par exemple, plus bas dans la pile, se pose la question de savoir comment les centres de données utilisent les différents types de mémoire dont ils disposent. (L’interview comprend une discussion intéressante sur le moment où les puces DRAM sont utilisées à la place du HBM, même si cela est assez profond dans les mauvaises herbes matérielles.) Plus haut dans la pile, les utilisateurs finaux découvrent comment structurer leurs essaims de modèles pour tirer parti du cache partagé.

À mesure que les entreprises améliorent leur orchestration de la mémoire, elles utiliseront moins de jetons et l’inférence deviendra moins chère. Pendant ce temps, les modèles deviennent plus efficaces dans le traitement de chaque jeton, ce qui réduit encore davantage les coûts. À mesure que les coûts des serveurs baissent, de nombreuses applications qui ne semblent pas viables actuellement commenceront à devenir rentables.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLe Parlement européen bloque l’IA sur les appareils des législateurs, invoquant des risques pour la sécurité
Next Article Les vétérans de SpaceX lèvent 50 millions de dollars de série A pour les liens vers les centres de données
John
  • Website

Related Posts

Wisk Aero, propriété de Boeing, accusé d’avoir licencié un manager qui avait soulevé des problèmes de sécurité

juillet 2, 2026

OpenAI propose de donner 5 % de ses capitaux propres à un fonds souverain américain

juillet 2, 2026

L’application populaire de suivi de la télévision, TV Time, ferme ses portes alors que l’entreprise se concentre sur l’IA

juillet 2, 2026

Le gouvernement américain affirme avoir été piraté – encore une fois

juillet 2, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

L’ère de la spécialisation fintech va-t-elle prendre fin ?

juillet 2, 2026

How Koaloo.Fi Became the 2026 Small Business Champion in Fintech Innovation

juillet 1, 2026

PB Fintech étend sa présence à Dubaï et investit Rs 20 milliards dans le secteur des paiements

juin 30, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Wisk Aero, propriété de Boeing, accusé d’avoir licencié un manager qui avait soulevé des problèmes de sécurité

juillet 2, 2026

La société a levé 400 millions de dollars après avoir fusionné jeudi avec un véhicule d’acquisition à vocation spéciale.

juillet 2, 2026

« Plus pétillant que scintillant » : le rapport sur l’emploi de juin ne parvient pas à déclencher le feu d’artifice du 4 juillet

juillet 2, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.