Google lance le «sabot implicite» pour rendre l'accès à ses derniers modèles d'IA moins chers

Google déploie une fonctionnalité dans son API Gemini qui, selon la société, rendra ses derniers modèles d’IA moins chers pour les développeurs tiers.

Google appelle la fonctionnalité «CCHING implicite» et dit qu’elle peut fournir 75% d’économies sur le «contexte répétitif» Pass aux modèles via l’API Gemini. Il prend en charge les modèles Gemini 2.5 Pro et 2.5 Flash de Google.

Il s’agit probablement de nouvelles pour les développeurs, car le coût de l’utilisation des modèles continue de croître.

Nous venons de livrer une mise en cache implicite dans l’API Gemini, permettant automatiquement une économie de coûts de 75% avec les modèles Gemini 2.5 lorsque votre demande frappe un cache 🚢

Nous avons également abaissé le jeton Min nécessaire pour frapper les caches à 1k sur 2,5 Flash et 2K sur 2.5 Pro!

– Logan Kilpatrick (@ofrialogank) 8 mai 2025

La mise en cache, une pratique largement adoptée dans l’industrie de l’IA, réutilise fréquemment des données accélérées ou pré-compusées de modèles pour réduire les exigences informatiques et les coûts. Par exemple, les caches peuvent stocker des réponses aux questions que les utilisateurs posent souvent un modèle, éliminant la nécessité pour le modèle de recréer des réponses à la même demande.

Google offrait auparavant une mise en cache d’invite du modèle, mais uniquement la mise en cache invite explicite, ce qui signifie que les développeurs ont dû définir leur invite la plus haute fréquence. Alors que les économies de coûts, nous censons être guaranrald, une peau invite explicite impliquait généralement beaucoup de travail manuel.

Certains développeurs n’étaient pas satisfaits de la façon dont le monde explicite de la mise en cache de Google pour Gemini 2.5 Pro, qui, selon eux, provoquait des factures d’API étonnamment importantes. Se plaindre a atteint un terrain de fièvre au cours de la semaine dernière, en favorisant l’équipe Gemini pour s’excuser et Plecl pour apporter des modifications.

Contrairement à la mise en cache expliquée, la mise en cache implicite est automatique. Activé par défaut pour les modèles Gemini 2.5, il transmet des économies de coûts si une demande d’API Gemini à un modèle frappe un cache.

Événement TechCrunch

Berkeley, que
|
5 juin

Réserver maintenant

« (W) HEM que vous envoyez une demande à l’un des modèles Gemini 2.5, si la demande partage un préfixe commun comme l’une des demandes précédentes, il est éligible à un hit de cache », a expliqué Google dans un article de blog. «Nous allons vous répercuter dynamiquement les économies de coûts.»

Le centime invite minimum pour le logement implicite est de 1 024 pour 2,5 Flash et 2.048 pour 2.5 Pro, selon la documentation du développeur de Google, qui n’est pas un grand amour, ce qui signifie qu’il ne devrait pas prendre grand-chose pour déclencher ces économies automatiques. Les jetons sont les bits bruts de modèles de données avec, avec un millier de jetons équivalent à environ 750 mots.

Étant donné que les dernières réclamations de Google d’économies de coûts de la mise en cache ont pris l’inverse, il y a des zones d’acheteur-beware dans cette nouvelle fonctionnalité. D’une part, Google recommande que le développement garde un contexte répété au début des demandes pour augmenter les chances de coups implicites. Le contexte qui pourrait passer de la demande à la demande doit être appelé la fin, indique la société.

D’autre part, Google n’a pas offert de vérification tierce que le nouveau système de mise en cache implicite fournirait les économies automatiques promises. Nous devrons donc voir ce que les lectures disent.

Source link

What's Hot

Emplois non agricoles : les analystes ne croient pas aux chiffres « trompeurs » du gouvernement américain sur l’emploi

Elon Musk ne pourra pas vendre une seule action SpaceX pendant un an, puis toutes les serrures s’ouvriront en même temps.

Airbnb offre 750 $ à ses hôtes pour ouvrir leur maison pour la Coupe du monde, ce qui leur rapporte des milliers de dollars

Google lance le «sabot implicite» pour rendre l’accès à ses derniers modèles d’IA moins chers

Un homme politique qui enquêtait sur les abus liés aux logiciels espions a vu son téléphone piraté avec le logiciel espion Pegasus

Dernière chance de postuler – Les candidatures pour les startups Battlefield Australia se terminent le 6 juillet

Mark Zuckerberg dit au personnel que les agents d’IA n’ont pas progressé aussi vite qu’il l’espérait

Des pilotes spatiaux privés effectuent des missions orbitales pour l’US Space Force

Mynd Fintech de M1xchange acquiert C2FO India

L’ère de la spécialisation fintech va-t-elle prendre fin ?

L’ère de la spécialisation fintech va-t-elle prendre fin ?

Top Insights

Emplois non agricoles : les analystes ne croient pas aux chiffres « trompeurs » du gouvernement américain sur l’emploi

Elon Musk ne pourra pas vendre une seule action SpaceX pendant un an, puis toutes les serrures s’ouvriront en même temps.

Airbnb offre 750 $ à ses hôtes pour ouvrir leur maison pour la Coupe du monde, ce qui leur rapporte des milliers de dollars

What's Hot

Google lance le «sabot implicite» pour rendre l’accès à ses derniers modèles d’IA moins chers

Related Posts

Subscribe to Updates