Si les chercheurs en IA de Google avaient le sens de l’humour, ils auraient appelé TurboQuant, le nouvel algorithme de compression de mémoire IA ultra-efficace annoncé mardi, « Pied Piper » – ou du moins c’est ce que pense Internet.
La blague fait référence à la startup fictive Pied Piper qui était au centre de la série télévisée « Silicon Valley » de HBO, diffusée de 2014 à 2019.
L’émission a suivi les fondateurs de la startup alors qu’ils naviguaient dans l’écosystème technologique, confrontés à des défis tels que la concurrence des grandes entreprises, la collecte de fonds, les problèmes de technologie et de produits, et même (à notre grand plaisir) époustouflant les juges lors d’une version fictive de TechCrunch Disrupt.
La technologie révolutionnaire de Pied Piper dans l’émission télévisée était un algorithme de compression qui réduisait considérablement la taille des fichiers avec une compression quasiment sans perte. Le nouveau TurboQuant de Google Research concerne également une compression extrême sans perte de qualité, mais appliquée à un goulot d’étranglement central dans les systèmes d’IA. D’où les comparaisons.
Google Research a décrit cette technologie comme un nouveau moyen de réduire la mémoire de travail de l’IA sans affecter les performances. La méthode de compression, qui utilise une forme de quantification vectorielle pour éliminer les goulots d’étranglement du cache dans le traitement de l’IA, permettrait essentiellement à l’IA de mémoriser plus d’informations tout en occupant moins d’espace et en maintenant la précision, selon les chercheurs.
Ils prévoient de présenter leurs résultats lors de la conférence ICLR 2026 le mois prochain, ainsi que les deux méthodes qui rendent cette compression possible : la méthode de quantification PolarQuant et une méthode de formation et d’optimisation appelée QJL.
Comprendre les mathématiques impliquées ici est quelque chose que les chercheurs et les informaticiens peuvent faire, mais les résultats enthousiasment l’ensemble de l’industrie technologique dans son ensemble.
S’il est mis en œuvre avec succès dans le monde réel, TurboQuant pourrait rendre l’IA moins coûteuse à exécuter en réduisant sa « mémoire de travail » d’exécution – connue sous le nom de cache KV – d’« au moins 6x ».
Certains, comme Matthew Prince, PDG de Cloudflare, appellent même cela le moment DeepSeek de Google – une référence aux gains d’efficacité générés par le modèle chinois d’IA, qui a été formé à une fraction du coût de ses concurrents sur des puces moins bonnes, tout en restant compétitif sur ses résultats.
Il convient néanmoins de noter que TurboQuant n’a pas encore été déployé à grande échelle ; c’est encore une avancée en laboratoire en ce moment.
Cela rend les comparaisons avec quelque chose comme DeepSeek, ou même avec le fictif Pied Piper, plus difficiles. A la télévision, la technologie de Pied Piper allait changer radicalement les règles de l’informatique. TurboQuant, quant à lui, pourrait conduire à des gains d’efficacité et à des systèmes nécessitant moins de mémoire lors de l’inférence. Mais cela ne résoudrait pas nécessairement les pénuries plus larges de RAM provoquées par l’IA, étant donné qu’elle cible uniquement la mémoire d’inférence, pas la formation – cette dernière continuant de nécessiter d’énormes quantités de RAM.

