Le refroidissement liquide n’est plus une option. C’est le seul moyen de résister à l’attaque de chaleur de l’IA. Le supercalculateur LogicGoogle TPU au saut de 400 VDC pour la chaîne d’approvisionnement et la conception des véhicules électriques est désormais effectué sur l’échelle Gigawatt avec une disponibilité de 99,999%.
Alors que la demande de charges de travail de l’intelligence artificielle s’intensifie, l’infrastructure physique du centre de données subit une transformation rapide et radicale.
Google, Microsoft, Meta et autres utilisent actuellement la technologie développée en premier pour les véhicules électriques (EV), en particulier pour les systèmes 400 VDC, pour relever les doubles défis de l’alimentation élevée et de la gestion thermique à haute densité.
La nouvelle vision combine un système de refroidissement liquide conçu pour gérer la chaleur résultante dans un rack de centre de données qui peut fournir jusqu’à 1 mégawatt d’énergie.
Tu pourrais aimer ça
Emprunter la technologie EV pour l’évolution du centre de données
Le passage à la distribution de puissance 400 VDC représente une rupture critique du système hérité. Google a précédemment soutenu la transition de l’industrie de 12VDC à 48VDC, mais la transition actuelle à +/- 400vdc est activée par la chaîne d’approvisionnement EV et entraînée selon les besoins.
L’initiative Diablo prise en charge par Meta, Microsoft et le projet de calcul ouvert (OCP) visent à normaliser l’interface à ce niveau de tension.
Google dit que cette architecture est une décision pratique pour libérer un espace de rack précieux pour les ressources informatiques en découplant l’alimentation du rack informatique via l’unité de side-car CA-DC. Il améliore également l’efficacité d’environ 3%.
Cependant, le refroidissement est devenu un problème tout aussi pressant. Le refroidissement à l’air traditionnel devient rapidement obsolète car les puces de nouvelle génération consomment plus de 1 000 watts chacune.
Le refroidissement du liquide est devenu la seule solution évolutive pour gérer la chaleur dans des environnements informatiques à haute densité.
Google adopte cette approche en plein essor. Ses gousses de TPU refroidies par eau opèrent actuellement sur une échelle Gigawatt et offrent une disponibilité de 99,999% au cours des sept dernières années.
Ces systèmes remplacent les grands dissipateurs de chaleur par des plaques froides compactes, réduisent efficacement de moitié l’empreinte physique du matériel du serveur et la densité de calcul de l’anneau quad par rapport aux générations précédentes.
Cependant, malgré ces réalisations techniques, le scepticisme est justifié. La poussée vers un rack de 1MW est basée sur l’hypothèse de la demande croissante continue. C’est une tendance qui ne se produit pas comme prévu.
La feuille de route de Google met en évidence les besoins en puissance croissants de l’IA projetant plus de 500 kW par rack d’ici 2030, mais il n’est pas clair si ces prévisions seront conservées sur le marché plus large.
Il convient également de noter que l’intégration des technologies liées à l’EV dans les centres de données augmente non seulement l’efficacité, mais également de nouvelles complexités concernant la sécurité et la serviabilité, en particulier à des tensions élevées.
Néanmoins, la collaboration entre hyperschool et la communauté du matériel ouvert démontre une perception commune selon laquelle les paradigmes existants ne sont plus suffisants.
Via StorageReview