Une nouvelle étude examine les performances des grands modèles de langage dans divers contextes médicaux, y compris des cas réels en salle d’urgence – où au moins un modèle semblait plus précis que les médecins humains.
L’étude a été publiée cette semaine dans Science et provient d’une équipe de recherche dirigée par des médecins et des informaticiens de la Harvard Medical School et du Beth Israel Deaconess Medical Center. Les chercheurs ont déclaré avoir mené diverses expériences pour mesurer la comparaison des modèles d’OpenAI avec ceux des médecins humains.
Dans une expérience, les chercheurs se sont concentrés sur 76 patients venus aux urgences de Beth Israel, comparant les diagnostics proposés par deux médecins traitants à ceux générés par les modèles o1 et 4o d’OpenAI. Ces diagnostics ont été évalués par deux autres médecins traitants, qui ne savaient pas lesquels provenaient d’humains et lesquels provenaient d’IA.
« À chaque point de contact diagnostique, o1 a obtenu des résultats nominalement meilleurs ou équivalents à ceux des deux médecins traitants et 4o », indique l’étude, ajoutant que les différences « étaient particulièrement prononcées au premier point de contact diagnostique (triage initial aux urgences), où il y a le moins d’informations disponibles sur le patient et le plus d’urgence pour prendre la bonne décision ».
Dans le communiqué de presse de la Harvard Medical School concernant l’étude, les chercheurs ont souligné qu’ils n’avaient pas du tout « prétraité les données » : les modèles d’IA ont été présentés avec les mêmes informations que celles disponibles dans les dossiers médicaux électroniques au moment de chaque diagnostic.
Grâce à ces informations, le modèle o1 a réussi à offrir « le diagnostic exact ou très proche » dans 67 % des cas de triage, comparativement à un médecin qui a eu le diagnostic exact ou proche 55 % du temps, et à l’autre qui a atteint la cible 50 % du temps.
« Nous avons testé le modèle d’IA par rapport à pratiquement tous les points de référence, et il a éclipsé à la fois les modèles précédents et les références de nos médecins », a déclaré Arjun Manrai, qui dirige un laboratoire d’IA à la Harvard Medical School et est l’un des principaux auteurs de l’étude, dans le communiqué de presse.
Événement Techcrunch
San Francisco, Californie
|
13-15 octobre 2026
Pour être clair, l’étude n’affirme pas que l’IA est prête à prendre de véritables décisions de vie ou de mort aux urgences. Au lieu de cela, il a déclaré que les résultats montrent un « besoin urgent d’essais prospectifs pour évaluer ces technologies dans des contextes de soins aux patients réels ».
Les chercheurs ont également noté qu’ils étudiaient uniquement les performances des modèles lorsqu’ils recevaient des informations textuelles, et que « les études existantes suggèrent que les modèles de base actuels sont plus limités dans leur raisonnement sur les entrées non textuelles ».
Adam Rodman, un médecin de Beth Israel qui est également l’un des principaux auteurs de l’étude, a averti le Guardian qu’il n’existe actuellement « aucun cadre formel de responsabilisation » autour des diagnostics d’IA, et que les patients « veulent toujours que les humains les guident dans leurs décisions de vie ou de mort (et) les guident dans les décisions de traitement difficiles ».
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

