
Ce que certains considèrent comme la bibliothèque numérique d’Alexandrie risque de perdre de précieux parchemins. Les grands médias empêchent la machine de retour d’Internet Archive d’enregistrer des pages Web pour empêcher les géants de l’IA de former leurs modèles sur des instantanés d’anciens articles.
Wired rapporte que 23 organes de presse, dont USA Today et le New York Times, font partie des 241 sites qui refusent l’accès aux articles du robot d’exploration Internet Archive. Ce n’est pas personnel, et certains organes de presse utilisent encore des archives pour leurs reportages, mais il s’agit de la menace imminente de l’IA.
Les entreprises technologiques peuvent contourner les lois sur le droit d’auteur en utilisant des machines de retour comme solution de contournement pour former des modèles de langage sur le contenu (y compris peut-être des recettes). Mark Graham, directeur de Wayback Machine, souligne que les archives numériques disposent de contrôles pour limiter l’utilisation abusive de l’automatisation de l’IA et empêcher l’extraction de données à grande échelle.
Les éditeurs peuvent archiver le matériel, mais des tiers conservent une version moins fragile de l’article et peuvent tenir le détaillant pour responsable s’il est modifié après la publication.
Rien de nouveau : l’année dernière, Reddit a interdit le grattage de données de Wayback Machine en raison de problèmes similaires en matière d’IA. Avec la suppression des sites Web du gouvernement fédéral, de nombreuses informations ont également été perdues dans les archives.
Toujours en action : Graham serait en train de négocier pour retrouver l’accès au matériel, tandis que plus de 100 membres des médias ont signé une lettre de soutien à Wayback. —DL
Ce rapport a été initialement publié par Morning Brew.

