Les workflows de l’ingénieur logiciel ont été transformés ces dernières années par un afflux d’outils de codage AI comme Cursor et GitHub Copilot, qui promettent d’améliorer la productivité en écrivant automatiquement des lignes de code, en corrigeant les bogues et en testant les modifications. Les outils sont alimentés par les modèles d’IA d’OpenAI, Google DeepMind, Anthropic et XAI qui ont rapidement augmenté leurs performances sur une gamme de tests d’ingénierie logicielle ces dernières années.
Cependant, une nouvelle étude publiée jeudi par le groupe de recherche AI à but non lucratif METR remet en question la mesure dans laquelle les outils de codage d’IA d’aujourd’hui améliorent la productivité des développeurs expérimentés.
METR a mené un essai contrôlé randomisé pour cette étude en recrutant 16 développeurs open source expérimentés et en les faisant effectuer 246 tâches réelles sur les redouts de code importants auxquels ils contribuent régulièrement. Les chercheurs ont condamné au hasard environ la moitié de ces tâches comme «alloculé», donnant aux développeurs l’autorisation d’outils de codage AI de l’art tels que Cursor Pro, tandis que l’autre moitié des tâches interdisaient l’utilisation d’AOL.
Avant de terminer leurs tâches attribuées, les développeurs ont prévu que l’utilisation d’outils de codage d’IA réduirait leur temps de complétion de 24%. C’était le cas.
« Étonnamment, nous constatons que l’autorisation de l’IA incrit en fait le temps d’achèvement de 19% – les développeurs sont plus lents lors de l’utilisation d’outils d’IA », ont déclaré les chercheurs.
Notamment, seulement 56% des développeurs de l’étude avaient une expérience de l’utilisation du curseur, le principal outil d’IA offert dans l’étude. Alors que presque tous les développeurs (94%) avaient de l’expérience en utilisant des LLM basés sur le Web dans leurs flux de travail de codage, cette étude était la première fois que certains utilisaient spécifiquement le curseur. Les chercheurs notent que les développeurs ont été formés à l’utilisation du curseur en préparation de l’étude.
Néanmoins, les résultats de METR soulèvent des questions sur les gains supposés de la productivité universelle promis par les outils de codage de l’IA en 2025. Sur la base de l’étude, les développeurs ne devraient pas supposer que les outils de codage de l’IA – en particulier ce qui est connu sous le nom de « codeurs d’ambiance » accélèrent leurs flux de travail.
Les chercheurs de METR soulignent quelques raisons potentielles pour lesquelles AI ralentit les développeurs plutôt que de les accélérer: les développeurs passent beaucoup plus de temps à inviter l’IA et à vouloir répondre lors de l’utilisation de codeurs d’ambiance plutôt que de codage actuel. L’IA a également tendance à lutter dans de grandes bases de code complexes, que ce test a utilisés.
Les auteurs de l’étude veille à ne pas tirer de solides conclusions de ces résultats, notant explicitement qu’ils croient que le système d’IA ne parvient actuellement pas à accélérer Mary ou la plupart des développeurs de logiciels. Des études à grande échelle ont montré que les outils de codage de l’IA accélèrent les flux de travail de l’ingénieur logiciel.
Les auteurs ont également noté que les progrès de l’IA ont été substantiels ces dernières années et qu’ils s’attendraient à ce que les mêmes résultats dans les mois. METR a également constaté que les outils de codage de l’IA ont considérablement amélioré leur capacité à effectuer des tâches complexes et long-horizon ces dernières années.
Cependant, la recherche offre encore une autre raison d’être sceptique quant aux gains prumés des outils de codage de l’IA. D’autres études ont montré que les outils de codage d’IA d’aujourd’hui peuvent introduire des erreurs et, dans certaines cases, des vulnérabilité des vulnérabilité.