Comme presque toutes les autres entreprises technologiques existantes, Adobe s’est fortement appuyée sur l’IA au cours des dernières années. La société de logiciels a lancé un certain nombre de services d’IA différents depuis 2023, notamment Firefly, sa suite de génération multimédia basée sur l’IA. Aujourd’hui, cependant, l’adoption totale de la technologie par l’entreprise a peut-être conduit à des problèmes, car un nouveau procès affirme qu’elle a utilisé des livres piratés pour entraîner l’un de ses modèles d’IA.
Un recours collectif proposé au nom d’Elizabeth Lyon, une auteure de l’Oregon, affirme qu’Adobe a utilisé des versions piratées de nombreux livres, dont le sien, pour entraîner le programme SlimLM de l’entreprise.
Adobe décrit SlimLM comme une petite série de modèles de langage qui peuvent être « optimisés pour les tâches d’assistance documentaire sur les appareils mobiles ». Il indique que SlimLM a été pré-entraîné sur SlimPajama-627B, un « ensemble de données dédoublonnées, multi-corporels et open source » publié par Cerebras en juin 2023. Lyon, qui a écrit un certain nombre de guides pour l’écriture de non-fiction, affirme que certaines de ses œuvres ont été incluses dans un ensemble de données de pré-formation qu’Adobe avait utilisé.
Le procès de Lyon, initialement rapporté par Reuters, indique que ses écrits ont été inclus dans un sous-ensemble traité d’un ensemble de données manipulées qui était la base du programme d’Adobe : « L’ensemble de données SlimPajama a été créé en copiant et en manipulant l’ensemble de données RedPajama (y compris la copie de Books3) », indique le procès. « Ainsi, parce qu’il s’agit d’une copie dérivée de l’ensemble de données RedPajama, SlimPajama contient l’ensemble de données Books3, y compris les œuvres protégées par le droit d’auteur du demandeur et des membres du groupe. »
« Books3 », une énorme collection de 191 000 livres qui ont été utilisés pour entraîner les systèmes genAI, a été une source constante de problèmes juridiques pour la communauté technologique. RedPajama a également été cité dans un certain nombre de litiges. En septembre, un procès contre Apple a affirmé que la société avait utilisé du matériel protégé par le droit d’auteur pour former son modèle Apple Intelligence. Le litige mentionnait l’ensemble de données et accusait l’entreprise technologique de copier des œuvres protégées « sans consentement et sans crédit ni compensation ». En octobre, un procès similaire contre Salesforce a également affirmé que l’entreprise avait utilisé RedPajama à des fins de formation.
Malheureusement pour l’industrie technologique, de tels procès sont désormais devenus monnaie courante. Les algorithmes d’IA sont formés sur des ensembles de données massifs et, dans certains cas, ces ensembles de données contiennent prétendument du matériel piraté. En septembre, Anthropic a accepté de verser 1,5 milliard de dollars à plusieurs auteurs qui l’avaient poursuivi en justice et l’accusaient d’avoir utilisé des versions piratées de leurs œuvres pour former son chatbot, Claude. L’affaire a été considérée comme un tournant potentiel dans les batailles juridiques en cours concernant le matériel protégé par le droit d’auteur dans les données de formation en IA, qui sont nombreuses.

