
Le professeur agrégé à la School of Nursing de l’Université Columbia avait l’habitude d’utiliser des outils d’intelligence artificielle pour affiner la grammaire, le formatage et d’autres détails des articles scientifiques. Mais quelques semaines après avoir soumis ses dernières recherches, il a reçu une question de référence de la revue dans laquelle il prévoyait de les publier. Les outils d’IA utilisés par Topaz inséraient silencieusement des sources fabriquées dans son travail.
« J’étais très gêné », a déclaré à Fortune Topaz, qui dirige une équipe de l’Université de Columbia développant des applications d’IA pour les soins de santé.
« Je suis chercheur en IA. Je connais les hallucinations », a-t-il déclaré. « Si cela m’arrive en tant qu’expert en IA, qu’arrivera-t-il aux autres ?
Ce quasi-accident a envoyé Topaz dans une enquête pour découvrir à quelle fréquence les experts sont trompés par l’IA. Il s’avère qu’il existe de nombreuses réponses.
Dans une étude publiée dans The Lancet plus tôt ce mois-ci, Topaz et ses collègues ont audité environ 2,5 millions d’articles biomédicaux et 97 millions de citations indexés dans PubMed Central, un référentiel central utilisé par les cliniciens et les chercheurs du monde entier. Ils ont trouvé plus de 4 000 références fabriquées, enfouies dans près de 3 000 articles. Bien que toutes les références n’aient pas été générées par l’IA, Topaz a déclaré que l’augmentation constante des faux approvisionnements est devenue « verticale » en 2024, peu de temps après que les outils d’IA pour la recherche ont commencé à être plus largement utilisés.
« Il est tout à fait logique que l’IA soit si connectée à eux désormais », dit-il.
Au cours des trois dernières années, la proportion de références fabriquées dans la littérature biomédicale a augmenté de plus de 12 fois. En 2023, 1 article sur 2 828 contiendra au moins une fausse référence, et l’année dernière, ce taux était passé à 1 sur 458. Les chercheurs ont découvert qu’au cours des sept premières semaines de 2026, 277 articles contenaient chacun au moins une référence inexistante.
« Je pense que c’est la pointe de l’iceberg », a déclaré Topaz.
Les hallucinations se produisent lorsqu’un modèle d’IA donne la priorité aux modèles de mots plutôt qu’à l’exactitude. Bien qu’elles soient souvent inoffensives, les risques sont différents puisque les hallucinations menacent de saper le processus scientifique lorsque les erreurs de l’IA commencent à s’infiltrer dans la littérature universitaire.
La médecine est un domaine qui se construit tout seul. Les essais cliniques citent des études antérieures. Des revues systématiques regroupent ensuite ces études, qui sont finalement citées dans les directives médicales. Les médecins et les infirmières s’appuient sur ces lignes directrices pour décider comment traiter les patients. La recherche fabriquée au début du processus ne s’arrête pas là.
« C’est la chaîne de preuves, la façon dont nous prenons soin et traitons les gens. Vous placez la recherche hypothétique au bas de la pile, et toute la structure en hérite », a déclaré Topaz.
« Nous avons déjà vu des articles provenant d’usines de papier inclus dans des revues systématiques qui éclairent les directives cliniques », a-t-il ajouté. « Lorsque les articles de lignes directrices citent des articles avec des listes de références partiellement fictives, la chaîne de décisions thérapeutiques fondées sur des preuves est sapée. »
Les erreurs d’IA arrivent à tout le monde
La susceptibilité de l’IA aux hallucinations est connue depuis quatre ans, lorsque ChatGPT est apparu pour la première fois. Les étudiants ont courageusement commencé à soumettre des articles douteux générés par l’IA en leur propre nom. Mais avec autant d’outils, d’agents et d’extensions désormais omniprésents dans presque toutes les professions, même les experts dans leur domaine sont dépassés par l’IA.
Prenons le cas de Steven Rosenbaum. Cette semaine, l’écrivain et cinéaste a fait la une des journaux pour toutes les mauvaises raisons après que le New York Times a identifié son nouveau livre, True Future: How AI Will Reshape Reality, comme contenant de nombreuses citations inexactes.
Le livre contenait des textes de présentation d’éminents journalistes, dont Nicholas Thompson, PDG de The Atlantic, et un avant-propos de Maria Ressa, journaliste philippine lauréate du prix Nobel de la paix. Il est arrivé « avec fracas », selon le Times.
Le livre de Rosenbaum contenait plus d’une demi-douzaine de citations mal attribuées ou complètement fabriquées qui étaient apparemment générées par un outil d’IA qu’il a révélé avoir utilisé dans ses remerciements. Rosenbaum a reconnu l’erreur dans une déclaration au Times, qualifiant l’épisode de « avertissement sur les risques de la recherche et des tests assistés par l’IA ».
Étant donné l’ampleur de l’utilisation de l’IA pour le travail de connaissances de niveau expert, des cas comme celui-ci pourraient être inévitables. Plusieurs organismes de presse, dont Fortune, testent actuellement l’utilisation d’outils d’IA dans les reportages. Les recherches montrent que plus de la moitié des professionnels du droit utilisent des outils d’IA pour préparer des briefings et des mémos. Selon un récent rapport de l’American Medical Association, plus de 80 % des médecins utilisent désormais l’IA de manière professionnelle pour résumer la recherche et produire de la documentation clinique, et ce pourcentage fera plus que doubler à partir de 2023. Même les lauréats du prix Nobel, comme la lauréate de littérature Olga Tokarczuk, ont admis avoir utilisé l’IA dans leurs travaux.
En matière de recherche, une étude menée par une revue médicale américaine l’année dernière a révélé que 36 % des articles incluaient au moins du texte généré par l’IA, mais seulement 9 % des chercheurs l’ont divulgué lorsqu’on leur a demandé avant de soumettre leurs articles. Une autre étude récente a révélé que plus de la moitié des chercheurs sont susceptibles d’utiliser des outils d’IA lorsqu’ils évaluent les travaux des autres par leurs pairs.
Mais il s’avère que les experts en la matière ne sont pas non plus à l’abri d’être dupes. L’étude de Topaz sur les hallucinations dans la recherche biomédicale rejoint un nombre croissant d’anecdotes et d’ensembles de données documentant des erreurs embarrassantes, y compris le catalogue de l’analyste juridique Damien Charlotin de 1 459 décisions juridiques citant des inexactitudes générées par l’IA. Un an avant le début du projet, des hallucinations liées à l’IA se produisaient deux à trois fois par mois. Maintenant, je reçois environ 5 cas par jour.
Quand les experts se trompent
Les faux documents de recherche générés par l’IA constituent déjà un problème dans le monde universitaire, devenant de plus en plus difficiles à analyser et menaçant de submerger les systèmes d’évaluation par les pairs. Mais les références psychédéliques dans les recherches réelles créées par les humains peuvent être tout aussi répandues et encore plus difficiles à retrouver.
La majorité des articles suivis par Topaz ne contenaient qu’une ou deux citations fabriquées parmi les dizaines de références que la recherche universitaire est généralement tenue de publier, ce qui suggère que la plupart des cas d’hallucinations de l’IA dans la recherche ne sont pas intentionnels.
Mais le secteur de l’édition n’est peut-être pas préparé à faire face à la prolifération de fausses références, a déclaré Topaz. Les méthodes de vérification varient selon la revue, certaines utilisant un logiciel pour vérifier les références et analyser le contenu généré par l’IA, mais l’application varie considérablement. Il n’existe pas non plus de mécanisme simple permettant de revenir en arrière et d’examiner la chaîne de preuves pour trouver la fausse étude ou référence originale. Peu de revues étaient auparavant capables d’identifier les hallucinations, puisque l’analyse de Topaz a révélé que 98,4 % des études comportant de fausses références n’avaient pas été rétractées par les éditeurs au moment de l’audit.
Cela fait partie de ce que les spécialistes du domaine appellent la « crise de reproductibilité » de la science, qui, à l’ère de l’IA, est exacerbée par le déluge de contenus inutiles ou peu fiables générés par l’IA qui imprègnent désormais la littérature universitaire. Mais c’est une histoire similaire dans d’autres domaines qui reposent sur des résultats reproductibles. Les articles de journaux favorisent la conversation et constituent la base de recherches futures. Les décisions juridiques sont finalement citées par les avocats et les universitaires dans d’autres affaires également.
Topaz a déclaré que l’IA elle-même ne doit pas nécessairement être le méchant et qu’il est heureux de l’utiliser dans son travail. « Le problème est que les résultats non vérifiés de l’IA deviennent partie intégrante du dossier permanent », a-t-il déclaré. « La solution n’est pas d’arrêter d’utiliser les outils, mais d’intégrer la validation dans votre flux de travail. »
« Plus la vérification sera retardée, plus il sera difficile de faire le ménage », a-t-il ajouté.
Les illusions de l’IA ne se soucient pas de la familiarité de l’utilisateur avec le sujet. Les erreurs sont conçues pour paraître réelles et mieux les cacher. Plus le domaine est sérieux, comme la médecine, le droit ou le journalisme, plus le risque d’erreur non détectée est grand.

