Pendant des années, les méta-employés ont des disques en interne en utilisant des travaux protégés par le droit d’auteur obtenus par des moyens légalement discutables pour former les modèles d’IA de l’entreprise, selon des documents courts non scellés jeudi.
Les documents ont été soumis par les plaignants dans l’affaire Kadrey c. Meta, l’un des nombreux litiges en matière de droits d’auteur de l’IA enroulant lentement le système judiciaire américain. Le défendeur, Meta, affirme que des modèles de formation sur les œuvres IP-Proted, en particulier les livres, sont une «utilisation équitable». Les plaignants, qui comprennent les auteurs Sarah Silverman et Ta-Nehisi Coates, en désaccord.
Les documents précédents soumis dans la poursuite ont allégué que le méta-PDG Mark Zuckerberg a donné à l’équipe AI de Meta l’OK pour s’entraîner à des droits d’auteur travauxEt que Meta a interrompu les conférences de licences de données sur la formation de l’IA avec des éditeurs de livres. Mais les nouveaux dépôts, dont la plupart montrent des parties des chats de travail internes entre les membres du personnel de Meta, peignent l’image la plus claire à ce jour sur la façon dont Meta a pu utiliser des données protégées par le droit d’auteur pour former ses modèles, y compris des modèles dans la famille LLAMA de l’entreprise.
Dans une conversation, des membres du personnel de Meta, dont Melanie Kambadur, un cadre supérieur de l’équipe de recherche de modèles de Llama de Meta, des modèles de formation DISCUSD sur les œuvres qu’ils savaient peut être juridiquement lourds.
«Mon opinion serait (dans la ligne de« demander pardon, pas pour la permission »): nous essayons d’acquérir les livres et de l’escalader pour faire de l’exercice pour qu’ils passent», a écrit Xavier Martinet, un ingénieur de recherche en méta, chez un chat Daté de février 2023, selon les documents. «C’est pourquoi ils ont établi cette génération AI pour (sic): afin que nous puissions être moins de diverse risque.»
Martinet a lancé l’idée d’acheter des livres électroniques à des prix de détail pour construire un ensemble de formation plutôt que de réduire les accords de licence avec des éditeurs de livres individuels. Après qu’un autre Stuffer ait souligné que l’utilisation du matériel protégé par le droit d’auteur pourrait être des groupes pour un défi juridique, Martinet a doublé, arguant que les startups «un million de gaz» étaient déjà des livres piratés pour la formation.
« Je veux dire, le pire des cas: nous avons découvert que c’était finalement OK, tandis qu’une start-up Gazillion (sic) a juste des tonnes de livres piratées sur BitTorrent », a écrit Martinet, selon les documents. « Mes 2 cents encore: essayer d’avoir des affaire avec les éditeurs prend directement beaucoup de temps (…) »
Dans la même conversation, Kambadur, qui a noté Meta était en pourparlers avec la plate-forme d’hébergement de documents Scribd «et autres» pour les licences, garantissant que tout en utilisant «publiquement DAMA» pour la formation modèle nécessiterait des approbations, les avocats de Meta étaient «moins conservateurs» qu’ils qu’ils avait été dans le passé avec de telles évaluations.
« Oui, nous devons certainement obtenir des licences ou des approbations sur les données accessibles au public », a déclaré Kambadur, selon les documents. « La différence est maintenant que nous avons plus d’argent, plus d’avocats, plus d’aide de Bizdev, la capacité à accélérer / dégénérer pour la vitesse, et les avocats sont un peu moins conservateurs sur les approbations. »
Talks of Libgen
Dans un autre chat de travail relayé dans les dépôts, la discussion de Kambadur possible à l’aide de Libgen, un «agrégateur de liens» qui provient l’accès au droit d’auteur à partir des éditeurs, comme alternative aux données que Meta pourrait.
Libgen a été poursuivi à plusieurs reprises, condamné à fermer et à une amende de dizaines de millions de dollars pour violation du droit d’auteur. L’un des collègues de Kambadur a répondu avec une capture d’écran d’un résultat de recherche Google pour Libgen contenant l’extrait «non, Libgen n’est pas légal».
Certains décideurs au sein de Meta semblent avoir eu l’impression que le fait de ne pas utiliser Libggen pour la formation modèle pourrait gravement nuire à la compétition de Meta dans la course de l’IA, selon les documents.
Dans un e-mail adressé à Meta IA VP Joelle Pineau, Sony Theakanath, directeur de la gestion des produits chez Meta, appelé Libgen «essentiel pour répondre aux numéros SOTA dans toutes les catégories», réfrontives pour en tête des meilleurs modèles d’origine à l’état de l’art (SOTA) et SOTA) et Catégories de référence.
Theakanath a également décrit les «atténuations» dans l’e-mail destiné à réduire l’exposition juridique de Meta, comprenaient la suppression des données de Libgen «clairement marqué comme piraté / volé» et non tout simplement non publiquement usage. «Nous ne divulguerions pas l’utilisation des ensembles de données Libgen utilisés pour s’entraîner», comme l’a dit Theakanath.
Dans la pratique, ces atténuations commencent à peigner via des fichiers Libggen pour des mots comme «volé» ou «piraté», selon les dépôts.
Dans une conversation de travail, Kambadur a mentionné que l’équipe AI de META a également réglé des modèles pour «éviter les invites à risque IP» – c’est-à-dire configuré les modèles pour refuser à des questions à Yearswer comme «reproduire les trois premières pages de« Harry Potter et la pierre du sorcier »ou« Tell Dites-moi sur quels ebooks vous avez été formé. «
Les dépôts contiennent d’autres révélations, ce qui implique que Meta peut avoir gratté les données Reddit pour un certain type de formation de modèle, possible en imitant le comportement d’une application tierce appelée PushIft. Notamment, Reddit a déclaré en avril 2023 qu’il prévoyait de commencer à facturer aux entreprises de l’IA pour accéder aux données de la formation des modèles.
Dans un chat daté de mars 2024, Chaya Nayak, directrice de la gestion des produits chez Meta’s Generative IA Org, a déclaré que Meta Leadership envisageait de «remplacer» les décisions passées sur les données de formation, d’inclure une décision de ne pas utiliser de contenu Quora ou de livres disséqués et d’articles scientifiques, Pour s’assurer que les modèles de l’entreprise disposaient de données de formation suffisantes.
Nayak a laissé entendre que les premiers ensembles de données de formation de META Meta et les publications Instagram, le texte transcrit à partir de vidéos sur les plates-formes Meta, et certaines méta-messages pour les messages commerciaux n’étaient pas suffisants. «Nous avons besoin de plus de données», a-t-elle écrit.
Les plaignants de Kadrey c. Meta ont modifié leur plainte à plusieurs reprises en vente, l’affaire a été déposée auprès du tribunal de district américain pour le district nord de la Californie, division de San Francisco, en 2023. Les derniers alles que Meta, entre autres affirmations, croix, référence croisée Certains livres piratés avec des livres protégés par le droit d’auteur disponibles pour une licence pour déterminer s’il était logique de analyser un accord de lisinsage avec un éditeur.
Dans un signe de la hauteur de Meta considère que les enjeux juridiques sont, la société a ajouté deux plaidants suprême de court-circuit du cabinet d’avocats Paul Weiss à son équipe de défense sur l’affaire.
Meta n’a pas répondu immiamment à une demande de comment.