En tant que vice-président produit chez Google Cloud, Michael Gerstenhaber travaille principalement sur Vertex, la plate-forme unifiée de l’entreprise pour le déploiement de l’IA d’entreprise. Cela lui donne une vision globale de la manière dont les entreprises utilisent réellement les modèles d’IA et de ce qui reste à faire pour libérer le potentiel de l’IA agentique.
Lorsque j’ai parlé avec Michael, j’ai été particulièrement frappé par une idée que je n’avais jamais entendue auparavant. Comme il l’a dit, les modèles d’IA repoussent trois frontières à la fois : l’intelligence brute, le temps de réponse et une troisième qualité qui a moins à voir avec la capacité brute qu’avec le coût – la question de savoir si un modèle peut être déployé à un coût suffisamment bas pour fonctionner à une échelle massive et imprévisible. Il s’agit d’une nouvelle façon de penser les capacités des modèles, particulièrement précieuse pour quiconque tente de pousser les modèles pionniers dans une nouvelle direction.
Cette interview a été éditée pour des raisons de longueur et de clarté.
Pourquoi ne pas commencer par nous présenter votre expérience en matière d’IA jusqu’à présent et ce que vous faites chez Google ?
Je travaille dans l’IA depuis environ deux ans maintenant. Je suis chez Anthropic depuis un an et demi, je suis chez Google depuis presque six mois maintenant. Je dirige Vertex, la plateforme de développement de Google. La plupart de nos clients sont des ingénieurs qui créent leurs propres applications. Ils veulent accéder aux modèles agents. Ils veulent accéder à une plateforme agent. Ils veulent accéder à l’inférence des modèles les plus intelligents au monde. Je leur fournis cela, mais je ne fournis pas les applications elles-mêmes. C’est à Shopify, Thomson Reuters et à nos différents clients de le fournir dans leurs propres domaines.
Qu’est-ce qui vous a attiré vers Google ?
Google est, je pense, unique au monde dans la mesure où nous avons tout, de l’interface à la couche d’infrastructure. Nous pouvons construire des centres de données. Nous pouvons acheter de l’électricité et construire des centrales électriques. Nous avons nos propres jetons. Nous avons notre propre modèle. Nous avons la couche d’inférence que nous contrôlons. Nous avons la couche agentique que nous contrôlons. Nous avons des API pour la mémoire, pour l’écriture de code entrelacé. Nous disposons en outre d’un moteur d’agent qui garantit la conformité et la gouvernance. Et puis nous avons même l’interface de chat avec Gemini Enterprise et Gemini Chat pour les consommateurs, n’est-ce pas ? Une partie de la raison pour laquelle je suis venu ici est que je considérais Google comme une entreprise intégrée verticalement, ce qui constitue une force pour nous.
Événement Techcrunch
Boston, Massachusetts
|
9 juin 2026
C’est étrange car, malgré toutes les différences entre les entreprises, on a l’impression que les trois grands laboratoires ont des capacités très proches. S’agit-il simplement d’une course à plus d’intelligence, ou est-ce plus compliqué que cela ?
Je vois trois limites. Des modèles comme Gemini Pro sont conçus pour l’intelligence brute. Pensez à écrire du code. Vous voulez juste le meilleur code possible, peu importe si cela prend 45 minutes, car je dois le maintenir, je dois le mettre en production. Je veux juste le meilleur.
Ensuite, il y a cette autre limite avec la latence. Si je fais du support client et que j’ai besoin de savoir comment appliquer une politique, vous avez besoin d’intelligence pour appliquer cette politique. Êtes-vous autorisé à effectuer un retour ? Puis-je surclasser mon siège dans un avion ? Mais peu importe que vous ayez raison s’il vous a fallu 45 minutes pour obtenir la réponse. Donc, dans ces cas-là, vous voulez le produit le plus intelligent dans les limites de ce budget de latence, car plus d’intelligence n’a plus d’importance une fois que cette personne s’ennuie et raccroche le téléphone.
Et puis il y a ce dernier groupe, où quelqu’un comme Reddit ou Meta veut modérer l’ensemble d’Internet. Ils disposent de budgets importants, mais ils ne peuvent pas prendre de risque d’entreprise sur quelque chose s’ils ne savent pas comment cela évolue. Ils ne savent pas combien de messages empoisonnés il y aura aujourd’hui ou demain. Ils doivent donc restreindre leur budget à un modèle au plus haut niveau d’intelligence qu’ils peuvent se permettre, mais de manière évolutive à une infinité de sujets. Et pour cela, le coût devient très, très important.
L’une des choses qui me laisse perplexe est la raison pour laquelle les systèmes agents mettent si longtemps à s’implanter. J’ai l’impression que les modèles sont là et que j’ai vu des démos incroyables, mais nous ne voyons pas le genre de changements majeurs auxquels je m’attendais il y a un an. Selon vous, qu’est-ce qui le retient ?
Cette technologie a pratiquement deux ans et il manque encore de nombreuses infrastructures. Nous n’avons pas de modèle pour vérifier ce que font les agents. Nous n’avons pas de modèles d’autorisation des données à un agent. Il y a ces modèles qui vont nécessiter du travail pour être mis en production. Et la production est toujours un indicateur de ce dont la technologie est capable. Deux ans ne suffisent donc pas pour voir ce que les renseignements soutiennent dans la production, et c’est là que les gens ont du mal.
Je pense que cela a évolué de manière particulièrement rapide dans le génie logiciel, car cela s’intègre parfaitement dans le cycle de vie du développement logiciel. Nous avons un environnement de développement dans lequel il est possible de casser des choses en toute sécurité, puis nous passons de l’environnement de développement à l’environnement de test. Le processus d’écriture de code chez Google nécessite que deux personnes vérifient ce code et affirment toutes deux qu’il est suffisamment bon pour mettre en avant la marque Google et le donner à nos clients. Nous avons donc beaucoup de ces processus humains qui rendent la mise en œuvre extrêmement faible. Mais nous devons produire ces modèles ailleurs et pour d’autres professions.

