Google a publié jeudi une version « réinventée » de son agent de recherche Gemini Deep Research, basée sur son modèle de fondation de pointe très médiatisé, Gemini 3 Pro.
Ce nouvel agent n’est pas uniquement conçu pour produire des rapports de recherche, même s’il peut toujours le faire. Il permet désormais aux développeurs d’intégrer les capacités de recherche du modèle SATA de Google dans leurs propres applications. Cette fonctionnalité est rendue possible grâce à la nouvelle API Interactions de Google, conçue pour donner aux développeurs plus de contrôle dans la prochaine ère de l’IA agentique.
Le nouvel outil Gemini Deep Research est un agent équipé pour synthétiser des montagnes d’informations et gérer un grand vidage de contexte dans l’invite. Google affirme qu’il est utilisé par les clients pour des tâches allant de la diligence raisonnable à la recherche sur la sécurité des médicaments.
Google annonce également qu’il intégrera bientôt ce nouvel agent de recherche approfondie dans des services, notamment Google Search, Google Finance, son application Gemini et son populaire NotebookLM. Il s’agit d’une nouvelle étape vers la préparation à un monde dans lequel les humains ne recherchent plus rien sur Google, mais leurs agents IA le font.
Le géant de la technologie affirme que Deep Research bénéficie du statut de Gemini 3 Pro en tant que modèle « le plus factuel », formé pour minimiser les hallucinations lors de tâches complexes.
Les hallucinations de l’IA – où le LLM ne fait qu’inventer des choses – sont un problème particulièrement crucial pour les tâches agents de longue durée et de raisonnement profond, dans lesquelles de nombreuses décisions autonomes sont prises en quelques minutes, heures ou plus. Plus un LLM doit faire de choix, plus il y a de chances qu’un seul choix halluciné invalide l’ensemble du résultat.
Pour prouver ses avancées, Google a également créé un autre benchmark (comme si le monde de l’IA en avait besoin d’un autre). Le nouveau benchmark s’appelle sans imagination DeepSearchQA et est destiné à tester des agents sur des tâches complexes de recherche d’informations en plusieurs étapes. Google a ouvert ce benchmark.
Événement Techcrunch
San Francisco
|
13-15 octobre 2026
Il a également testé Deep Research on Humanity’s Last Exam, un référentiel indépendant de connaissances générales au nom bien plus intéressant et rempli de tâches incroyablement spécialisées ; et BrowserComp, une référence pour les tâches agentiques basées sur un navigateur.
Comme on pouvait s’y attendre, le nouvel agent de Google a battu la concurrence sur son propre benchmark et sur celui de Humanity. Cependant, ChatGPT 5 Pro d’OpenAI était étonnamment deuxième et devançait légèrement Google sur BrowserComp.
Mais ces comparaisons de référence étaient obsolètes presque au moment où Google les publiait. Car le même jour, OpenAI a lancé son très attendu GPT 5.2 – nom de code Garlic. OpenAI affirme que son nouveau modèle surpasse ses concurrents, en particulier Google, sur une série de tests de référence typiques, y compris celui développé en interne par OpenAI.
L’un des aspects les plus intéressants de cette annonce était peut-être le timing. Sachant que le monde attendait la sortie de Garlic, Google a publié ses propres nouvelles sur l’IA.

