ArXiv, un référentiel ouvert largement utilisé pour la recherche en prépublication, fait davantage pour réprimer l’utilisation imprudente de grands modèles de langage dans les articles scientifiques.
Bien que les articles soient publiés sur le site avant d’être évalués par des pairs, arXiv (prononcé « archive ») est devenu l’un des principaux moyens de diffusion de la recherche dans des domaines comme l’informatique et les mathématiques, et le site lui-même est devenu une source de données sur les tendances de la recherche scientifique.
ArXiv a déjà pris des mesures pour lutter contre un nombre croissant d’articles de mauvaise qualité générés par l’IA, par exemple en exigeant que les premières affiches obtiennent l’approbation d’un auteur établi. Et après avoir été hébergée par Cornell pendant plus de 20 ans, l’organisation est en train de devenir une organisation indépendante à but non lucratif, ce qui devrait lui permettre de collecter davantage d’argent pour résoudre des problèmes tels que le gaspillage de l’IA.
Dans sa dernière initiative, Thomas Dietterich – président de la section informatique d’arXiv – a publié jeudi que « si une soumission contient des preuves irréfutables que les auteurs n’ont pas vérifié les résultats de la génération LLM, cela signifie que nous ne pouvons faire confiance à rien dans l’article. »
Ces preuves incontestables pourraient inclure des éléments tels que des « références hallucinées » et des commentaires vers ou depuis le LLM, a déclaré Dietterich. Si de telles preuves sont trouvées, les auteurs d’un article seront confrontés à « une interdiction d’un an d’arXiv suivie de l’exigence que les soumissions ultérieures d’arXiv doivent d’abord être acceptées par un lieu réputé évalué par des pairs ».
Notez qu’il ne s’agit pas d’une interdiction pure et simple de l’utilisation des LLM, mais plutôt d’une insistance sur le fait que, comme le dit Dietterich, les auteurs assument « l’entière responsabilité » du contenu, « quelle que soit la manière dont le contenu est généré ». Ainsi, si les chercheurs copient « un langage inapproprié, un contenu plagié, un contenu biaisé, des erreurs, des fautes, des références incorrectes ou un contenu trompeur » directement à partir d’un LLM, alors ils en sont toujours responsables.
Dietterich a déclaré à 404 Media qu’il s’agirait d’une règle « d’un seul coup », mais que les modérateurs doivent signaler le problème et que les présidents de section doivent confirmer les preuves avant d’imposer la pénalité. Les auteurs pourront également faire appel de la décision.
Des recherches récentes évaluées par des pairs ont révélé que les citations fabriquées sont en augmentation dans la recherche biomédicale, probablement en raison des LLM – même si, pour être honnête, les scientifiques ne sont pas les seuls à être surpris en utilisant des citations inventées par l’IA.
Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

