Google déploie une fonctionnalité dans son API Gemini qui, selon la société, rendra ses derniers modèles d’IA moins chers pour les développeurs tiers.
Google appelle la fonctionnalité «CCHING implicite» et dit qu’elle peut fournir 75% d’économies sur le «contexte répétitif» Pass aux modèles via l’API Gemini. Il prend en charge les modèles Gemini 2.5 Pro et 2.5 Flash de Google.
Il s’agit probablement de nouvelles pour les développeurs, car le coût de l’utilisation des modèles continue de croître.
La mise en cache, une pratique largement adoptée dans l’industrie de l’IA, réutilise fréquemment des données accélérées ou pré-compusées de modèles pour réduire les exigences informatiques et les coûts. Par exemple, les caches peuvent stocker des réponses aux questions que les utilisateurs posent souvent un modèle, éliminant la nécessité pour le modèle de recréer des réponses à la même demande.
Google offrait auparavant une mise en cache d’invite du modèle, mais uniquement la mise en cache invite explicite, ce qui signifie que les développeurs ont dû définir leur invite la plus haute fréquence. Alors que les économies de coûts, nous censons être guaranrald, une peau invite explicite impliquait généralement beaucoup de travail manuel.
Certains développeurs n’étaient pas satisfaits de la façon dont le monde explicite de la mise en cache de Google pour Gemini 2.5 Pro, qui, selon eux, provoquait des factures d’API étonnamment importantes. Se plaindre a atteint un terrain de fièvre au cours de la semaine dernière, en favorisant l’équipe Gemini pour s’excuser et Plecl pour apporter des modifications.
Contrairement à la mise en cache expliquée, la mise en cache implicite est automatique. Activé par défaut pour les modèles Gemini 2.5, il transmet des économies de coûts si une demande d’API Gemini à un modèle frappe un cache.
Événement TechCrunch
Berkeley, que
|
5 juin
Réserver maintenant
« (W) HEM que vous envoyez une demande à l’un des modèles Gemini 2.5, si la demande partage un préfixe commun comme l’une des demandes précédentes, il est éligible à un hit de cache », a expliqué Google dans un article de blog. «Nous allons vous répercuter dynamiquement les économies de coûts.»
Le centime invite minimum pour le logement implicite est de 1 024 pour 2,5 Flash et 2.048 pour 2.5 Pro, selon la documentation du développeur de Google, qui n’est pas un grand amour, ce qui signifie qu’il ne devrait pas prendre grand-chose pour déclencher ces économies automatiques. Les jetons sont les bits bruts de modèles de données avec, avec un millier de jetons équivalent à environ 750 mots.
Étant donné que les dernières réclamations de Google d’économies de coûts de la mise en cache ont pris l’inverse, il y a des zones d’acheteur-beware dans cette nouvelle fonctionnalité. D’une part, Google recommande que le développement garde un contexte répété au début des demandes pour augmenter les chances de coups implicites. Le contexte qui pourrait passer de la demande à la demande doit être appelé la fin, indique la société.
D’autre part, Google n’a pas offert de vérification tierce que le nouveau système de mise en cache implicite fournirait les économies automatiques promises. Nous devrons donc voir ce que les lectures disent.