Nous avons tous ressenti le soupçon rampant que quelque chose que nous lisons a été écrit par un grand modèle de langage – mais c’est remarquablement difficile à cerner. Pendant quelques mois l’année dernière, tout le monde était convaincu que des mots spécifiques comme « fouiller » ou « souligner » pouvaient trahir les modèles, mais les preuves sont minces et, à mesure que les modèles sont devenus plus sophistiqués, les mots révélateurs sont devenus plus difficiles à retracer.
Mais il s’avère que les gens de Wikipédia sont devenus assez doués pour signaler la prose écrite par l’IA – et le guide public du groupe sur les « Signes d’écriture par l’IA » est la meilleure ressource que j’ai trouvée pour déterminer si vos soupçons sont justifiés. (Crédit au poète Jameson Fitzpatrick, qui a souligné le document sur X.)
Depuis 2023, les éditeurs de Wikipédia s’efforcent de maîtriser les soumissions d’IA, un projet qu’ils appellent Project AI Cleanup. Avec des millions de modifications apportées chaque jour, il y a beaucoup de matériel sur lequel s’appuyer, et dans le style classique d’un éditeur Wikipédia, le groupe a produit un guide de terrain à la fois détaillé et riche en preuves.
Pour commencer, le guide confirme ce que nous savons déjà : les outils automatisés sont fondamentalement inutiles. Au lieu de cela, le guide se concentre sur les habitudes et les tournures de phrases qui sont rares sur Wikipédia mais courantes sur Internet en général (et donc courantes dans les données d’entraînement du modèle). Selon le guide, les soumissions d’IA consacreront beaucoup de temps à souligner pourquoi un sujet est important, généralement en termes génériques comme « un moment charnière » ou « un mouvement plus large ». Les modèles d’IA passeront également beaucoup de temps à détailler des spots médiatiques mineurs pour que le sujet paraisse remarquable – le genre de chose que l’on attend d’une biographie personnelle, mais pas d’une source indépendante.
Le guide signale une bizarrerie particulièrement intéressante autour des clauses de fin avec des affirmations floues d’importance. Les modèles diront qu’un événement ou un détail « souligne la signification » de quelque chose ou d’autre, ou « reflète la pertinence continue » d’une idée générale. (Les amateurs de grammaire connaîtront cela sous le nom de « participe présent ».) C’est un peu difficile à cerner, mais une fois que vous pourrez le reconnaître, vous le verrez partout.
Il existe également une tendance à utiliser un langage marketing vague, extrêmement courant sur Internet. Les paysages sont toujours pittoresques, les vues sont toujours à couper le souffle et tout est propre et moderne. Comme le disent les rédacteurs, « cela ressemble plus à la transcription d’une publicité télévisée ».
Le guide mérite d’être lu dans son intégralité, mais j’en suis ressorti très impressionné. Avant cela, j’aurais dit que la prose LLM se développait trop vite pour être cernée. Mais les habitudes signalées ici sont profondément ancrées dans la manière dont les modèles d’IA sont formés et déployés. Ils peuvent être déguisés, mais il sera difficile de les éliminer complètement. Et si le grand public se familiarise davantage avec l’identification du contenu de l’IA, cela pourrait avoir toutes sortes de conséquences intéressantes.

