Google lance le «sabot implicite» pour rendre l'accès à ses derniers modèles d'IA moins chers

Google déploie une fonctionnalité dans son API Gemini qui, selon la société, rendra ses derniers modèles d’IA moins chers pour les développeurs tiers.

Google appelle la fonctionnalité «CCHING implicite» et dit qu’elle peut fournir 75% d’économies sur le «contexte répétitif» Pass aux modèles via l’API Gemini. Il prend en charge les modèles Gemini 2.5 Pro et 2.5 Flash de Google.

Il s’agit probablement de nouvelles pour les développeurs, car le coût de l’utilisation des modèles continue de croître.

Nous venons de livrer une mise en cache implicite dans l’API Gemini, permettant automatiquement une économie de coûts de 75% avec les modèles Gemini 2.5 lorsque votre demande frappe un cache 🚢

Nous avons également abaissé le jeton Min nécessaire pour frapper les caches à 1k sur 2,5 Flash et 2K sur 2.5 Pro!

– Logan Kilpatrick (@ofrialogank) 8 mai 2025

La mise en cache, une pratique largement adoptée dans l’industrie de l’IA, réutilise fréquemment des données accélérées ou pré-compusées de modèles pour réduire les exigences informatiques et les coûts. Par exemple, les caches peuvent stocker des réponses aux questions que les utilisateurs posent souvent un modèle, éliminant la nécessité pour le modèle de recréer des réponses à la même demande.

Google offrait auparavant une mise en cache d’invite du modèle, mais uniquement la mise en cache invite explicite, ce qui signifie que les développeurs ont dû définir leur invite la plus haute fréquence. Alors que les économies de coûts, nous censons être guaranrald, une peau invite explicite impliquait généralement beaucoup de travail manuel.

Certains développeurs n’étaient pas satisfaits de la façon dont le monde explicite de la mise en cache de Google pour Gemini 2.5 Pro, qui, selon eux, provoquait des factures d’API étonnamment importantes. Se plaindre a atteint un terrain de fièvre au cours de la semaine dernière, en favorisant l’équipe Gemini pour s’excuser et Plecl pour apporter des modifications.

Contrairement à la mise en cache expliquée, la mise en cache implicite est automatique. Activé par défaut pour les modèles Gemini 2.5, il transmet des économies de coûts si une demande d’API Gemini à un modèle frappe un cache.

Événement TechCrunch

Berkeley, que
|
5 juin

Réserver maintenant

« (W) HEM que vous envoyez une demande à l’un des modèles Gemini 2.5, si la demande partage un préfixe commun comme l’une des demandes précédentes, il est éligible à un hit de cache », a expliqué Google dans un article de blog. «Nous allons vous répercuter dynamiquement les économies de coûts.»

Le centime invite minimum pour le logement implicite est de 1 024 pour 2,5 Flash et 2.048 pour 2.5 Pro, selon la documentation du développeur de Google, qui n’est pas un grand amour, ce qui signifie qu’il ne devrait pas prendre grand-chose pour déclencher ces économies automatiques. Les jetons sont les bits bruts de modèles de données avec, avec un millier de jetons équivalent à environ 750 mots.

Étant donné que les dernières réclamations de Google d’économies de coûts de la mise en cache ont pris l’inverse, il y a des zones d’acheteur-beware dans cette nouvelle fonctionnalité. D’une part, Google recommande que le développement garde un contexte répété au début des demandes pour augmenter les chances de coups implicites. Le contexte qui pourrait passer de la demande à la demande doit être appelé la fin, indique la société.

D’autre part, Google n’a pas offert de vérification tierce que le nouveau système de mise en cache implicite fournirait les économies automatiques promises. Nous devrons donc voir ce que les lectures disent.

Source link

What's Hot

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages de drones de Rainmaker du Rainmaker

La Pologne se précipite et ferme l’aéroport clé au milieu de la menace de drone

La banque centrale de la Russie révèle que le PIB se rétrécit et que l’économie de guerre de Poutine est en récession

Google lance le «sabot implicite» pour rendre l’accès à ses derniers modèles d’IA moins chers

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages de drones de Rainmaker du Rainmaker

3 erreurs financières comme les nouveaux entrepreneurs font lors de la planification de l’avenir de leurs enfants

Voici la répression de la déportation de la technologie de puissance de la technologie

Randonnée, icône une licorne, tire tandis que l’Inde rétracte les jeux de l’argent réel

Fichiers LendBuzz FinTech Lendch FinTech pour les introductions en bourse

Comment les crypto-monnaies, les fintechs et l’IA peuvent remodeler la géopolitique mondiale de l’avenir

APAC offre un grand potentiel de croissance, mais le succès nécessite une stratégie de paiement localisée

Top Insights

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages de drones de Rainmaker du Rainmaker

La Pologne se précipite et ferme l’aéroport clé au milieu de la menace de drone

La banque centrale de la Russie révèle que le PIB se rétrécit et que l’économie de guerre de Poutine est en récession

What's Hot

Google lance le «sabot implicite» pour rendre l’accès à ses derniers modèles d’IA moins chers

Related Posts

Subscribe to Updates