Une nouvelle étude semble donner des crédits aux allégations selon lesquelles OpenAI a formé au moins certains de ses modèles d’IA sur le contenu protégé par le droit d’auteur.
Openai est broché dans des combinaisons frappées par les auteurs, les programmeurs et autres titulaires de droits qui accuse l’entreprise d’utiliser leurs livres de travail, leurs codes, etc. à développer ses modèles sans autorisation. OpenAI a longtemps revendiqué une défense sur l’utilisation équitable, mais les plaignants de ces huttes soutiennent qu’il y a une saillie dans la loi sur le droit d’auteur américain pour la formation des données.
L’étude, qui a été co-écrite par des chercheurs de l’Université de Washington, de l’Université de Copenhague et de Stanford, a proposé une nouvelle méthode pour identifier les données de formation «mémorisées» par des modèles derrière une API, Likenai.
Les modèles sont des moteurs prédits. Formé sur de nombreuses données, ils apprennent des modèles – c’est ainsi que peut générer des essais, des photos et plus encore. La plupart des sorties ne sont pas des copies textuelles des données de formation, mais en raison de la façon dont les modèles «apprennent», certains le sont inévitablement. Des modèles d’images se sont révélés régurgiter des captures d’écran à partir de films sur lesquels ils ont été formés, tandis que des modèles de langage ont été observés affligeant efficacement les articles de presse.
La méthode de l’étude est liée à la parole selon laquelle les co-auteurs appellent «à forte surprise» – c’est-à-dire des mots qui se distinguent comme rares dans le contexte d’un plus grand travail de travail. Par exemple, le mot «radar» dans la phrase «Jack et moi nous sommes assis parfaitement encore avec le bourdonnement radar» serait considéré comme à forte surprise, car il est statistiquement moins probable que des mots tels que «moteur» ou «radio» pour apparaître avant le «bourdonnement».
Les co-auteurs ont sondé plusieurs modèles OpenAI, dont GPT-4 et GPT-3.5, pour des signes de mémorisation en supprimant les mots à haute teneur en extraits de livres de fiction et des pièces du New York Times et en faisant essayer les modèles de «deviner» quels mots avaient été masqués. Si les modèles ont réussi à deviner correctement, il est probable qu’ils ont mémorisé l’extrait pendant la formation, ont conclu les co-auteurs.

Selon les résultats des tests, le GPT-4 a montré des signes d’avoir mémorisé des parties de livres de fiction populaires, comprenait des livres dans un ensemble de données contenant des échantillons de livres électroniques protégés par le droit d’auteur appelé Bookmia. Les résultats suggèrent également que le modèle mémorisé des parties des articles du New York Times, bien qu’à un taux relativement inférieur.
Abhilasha Ravichander, doctorante à l’Université de Washington et co-auteur de l’étude, a déclaré à TechCrunch que les résultats ont mis en lumière les modèles de «données controversées» auraient pu être formés.
« Afin d’avoir des modèles de langage large qui sont dignes de confiance, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement », a déclaré Ravichander. «Notre travail convient à fournir un outil pour sonder les modèles de grandes langues, mais il y a un besoin réel d’une plus grande transparence des données dans tout l’écosystème.
OpenAI a longtemps plaidé pour les restrictions plus lâches sur le développement de modèles à l’aide de données protégées par le droit d’auteur. Bien que l’entreprise ait certaines offres de licence de contenu en place et propose des mécanismes d’opt-out qui permettent aux titulaires de droits d’auteur de signaler le contenu qu’elles ne sont pas utilisées à des fins de formation, il a fait pression sur plusieurs gouvernements pour codifier les règles de «rétention» concernant les approches de formation de l’IA.