Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Comment une société de capital-risque investit dans un monde de plus en plus fragmenté

avril 29, 2026

Meta paie ses dirigeants pour atteindre une valorisation de 9 500 milliards de dollars, ce que personne n’a jamais fait auparavant.

avril 29, 2026

Lors de son essai OpenAI, Musk remet en question une vieille amitié

avril 29, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Le contenu protégé par des droits d’auteur «mémorisé» d’Openai, suggère une nouvelle étude
Startups

Le contenu protégé par des droits d’auteur «mémorisé» d’Openai, suggère une nouvelle étude

JohnBy Johnavril 4, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Une nouvelle étude semble donner des crédits aux allégations selon lesquelles OpenAI a formé au moins certains de ses modèles d’IA sur le contenu protégé par le droit d’auteur.

Openai est broché dans des combinaisons frappées par les auteurs, les programmeurs et autres titulaires de droits qui accuse l’entreprise d’utiliser leurs livres de travail, leurs codes, etc. à développer ses modèles sans autorisation. OpenAI a longtemps revendiqué une défense sur l’utilisation équitable, mais les plaignants de ces huttes soutiennent qu’il y a une saillie dans la loi sur le droit d’auteur américain pour la formation des données.

L’étude, qui a été co-écrite par des chercheurs de l’Université de Washington, de l’Université de Copenhague et de Stanford, a proposé une nouvelle méthode pour identifier les données de formation «mémorisées» par des modèles derrière une API, Likenai.

Les modèles sont des moteurs prédits. Formé sur de nombreuses données, ils apprennent des modèles – c’est ainsi que peut générer des essais, des photos et plus encore. La plupart des sorties ne sont pas des copies textuelles des données de formation, mais en raison de la façon dont les modèles «apprennent», certains le sont inévitablement. Des modèles d’images se sont révélés régurgiter des captures d’écran à partir de films sur lesquels ils ont été formés, tandis que des modèles de langage ont été observés affligeant efficacement les articles de presse.

La méthode de l’étude est liée à la parole selon laquelle les co-auteurs appellent «à forte surprise» – c’est-à-dire des mots qui se distinguent comme rares dans le contexte d’un plus grand travail de travail. Par exemple, le mot «radar» dans la phrase «Jack et moi nous sommes assis parfaitement encore avec le bourdonnement radar» serait considéré comme à forte surprise, car il est statistiquement moins probable que des mots tels que «moteur» ou «radio» pour apparaître avant le «bourdonnement».

Les co-auteurs ont sondé plusieurs modèles OpenAI, dont GPT-4 et GPT-3.5, pour des signes de mémorisation en supprimant les mots à haute teneur en extraits de livres de fiction et des pièces du New York Times et en faisant essayer les modèles de «deviner» quels mots avaient été masqués. Si les modèles ont réussi à deviner correctement, il est probable qu’ils ont mémorisé l’extrait pendant la formation, ont conclu les co-auteurs.

Étude d'Openai Copyright
Un exemple d’avoir un modèle «devinez» un mot à haut surprise.Crédits d’image: Openai

Selon les résultats des tests, le GPT-4 a montré des signes d’avoir mémorisé des parties de livres de fiction populaires, comprenait des livres dans un ensemble de données contenant des échantillons de livres électroniques protégés par le droit d’auteur appelé Bookmia. Les résultats suggèrent également que le modèle mémorisé des parties des articles du New York Times, bien qu’à un taux relativement inférieur.

Abhilasha Ravichander, doctorante à l’Université de Washington et co-auteur de l’étude, a déclaré à TechCrunch que les résultats ont mis en lumière les modèles de «données controversées» auraient pu être formés.

« Afin d’avoir des modèles de langage large qui sont dignes de confiance, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement », a déclaré Ravichander. «Notre travail convient à fournir un outil pour sonder les modèles de grandes langues, mais il y a un besoin réel d’une plus grande transparence des données dans tout l’écosystème.

OpenAI a longtemps plaidé pour les restrictions plus lâches sur le développement de modèles à l’aide de données protégées par le droit d’auteur. Bien que l’entreprise ait certaines offres de licence de contenu en place et propose des mécanismes d’opt-out qui permettent aux titulaires de droits d’auteur de signaler le contenu qu’elles ne sont pas utilisées à des fins de formation, il a fait pression sur plusieurs gouvernements pour codifier les règles de «rétention» concernant les approches de formation de l’IA.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLes dirigeants canadiens et mexicains sont crédités en esquivant les derniers tarifs américains
Next Article Les hedge funds ont frappé l’appel de marge le plus net depuis la crise covide de 2020
John
  • Website

Related Posts

Comment une société de capital-risque investit dans un monde de plus en plus fragmenté

avril 29, 2026

Lors de son essai OpenAI, Musk remet en question une vieille amitié

avril 29, 2026

Amazon propose déjà de nouveaux produits OpenAI sur AWS

avril 28, 2026

Amazon lance une expérience de questions-réponses audio basée sur l’IA sur les pages produits

avril 28, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Link Home Holdings Co., Ltd. signe un protocole d’accord pour acquérir Mortgage One Group, accélérant ainsi l’expansion à l’échelle nationale de la plateforme immobilière et Fintech d’IA

avril 28, 2026

La fintech indienne lève un financement de 2PC pour 513 millions de dollars au premier trimestre 2026 : rapport

avril 28, 2026

Offrir une alternative aux avances de fonds

avril 27, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Comment une société de capital-risque investit dans un monde de plus en plus fragmenté

avril 29, 2026

Meta paie ses dirigeants pour atteindre une valorisation de 9 500 milliards de dollars, ce que personne n’a jamais fait auparavant.

avril 29, 2026

Lors de son essai OpenAI, Musk remet en question une vieille amitié

avril 29, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.