Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

La star de « Million Dollar Listing » Fredrik Ecklund dit que Gen Z n’a pas besoin d’un diplôme universitaire pour arriver sur l’immobilier: « Vous devez sortir dans la rue. »

septembre 14, 2025

Fondée par le secrétaire à l’énergie de Trump, Liberty Energy vise à diriger l’avenir de la fracturation

septembre 14, 2025

Qu’est-ce que la mode a à voir avec Freud? L’exposition de New York décompose les connexions

septembre 14, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Le contenu protégé par des droits d’auteur «mémorisé» d’Openai, suggère une nouvelle étude
Startups

Le contenu protégé par des droits d’auteur «mémorisé» d’Openai, suggère une nouvelle étude

JohnBy Johnavril 4, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Une nouvelle étude semble donner des crédits aux allégations selon lesquelles OpenAI a formé au moins certains de ses modèles d’IA sur le contenu protégé par le droit d’auteur.

Openai est broché dans des combinaisons frappées par les auteurs, les programmeurs et autres titulaires de droits qui accuse l’entreprise d’utiliser leurs livres de travail, leurs codes, etc. à développer ses modèles sans autorisation. OpenAI a longtemps revendiqué une défense sur l’utilisation équitable, mais les plaignants de ces huttes soutiennent qu’il y a une saillie dans la loi sur le droit d’auteur américain pour la formation des données.

L’étude, qui a été co-écrite par des chercheurs de l’Université de Washington, de l’Université de Copenhague et de Stanford, a proposé une nouvelle méthode pour identifier les données de formation «mémorisées» par des modèles derrière une API, Likenai.

Les modèles sont des moteurs prédits. Formé sur de nombreuses données, ils apprennent des modèles – c’est ainsi que peut générer des essais, des photos et plus encore. La plupart des sorties ne sont pas des copies textuelles des données de formation, mais en raison de la façon dont les modèles «apprennent», certains le sont inévitablement. Des modèles d’images se sont révélés régurgiter des captures d’écran à partir de films sur lesquels ils ont été formés, tandis que des modèles de langage ont été observés affligeant efficacement les articles de presse.

La méthode de l’étude est liée à la parole selon laquelle les co-auteurs appellent «à forte surprise» – c’est-à-dire des mots qui se distinguent comme rares dans le contexte d’un plus grand travail de travail. Par exemple, le mot «radar» dans la phrase «Jack et moi nous sommes assis parfaitement encore avec le bourdonnement radar» serait considéré comme à forte surprise, car il est statistiquement moins probable que des mots tels que «moteur» ou «radio» pour apparaître avant le «bourdonnement».

Les co-auteurs ont sondé plusieurs modèles OpenAI, dont GPT-4 et GPT-3.5, pour des signes de mémorisation en supprimant les mots à haute teneur en extraits de livres de fiction et des pièces du New York Times et en faisant essayer les modèles de «deviner» quels mots avaient été masqués. Si les modèles ont réussi à deviner correctement, il est probable qu’ils ont mémorisé l’extrait pendant la formation, ont conclu les co-auteurs.

Étude d'Openai Copyright
Un exemple d’avoir un modèle «devinez» un mot à haut surprise.Crédits d’image: Openai

Selon les résultats des tests, le GPT-4 a montré des signes d’avoir mémorisé des parties de livres de fiction populaires, comprenait des livres dans un ensemble de données contenant des échantillons de livres électroniques protégés par le droit d’auteur appelé Bookmia. Les résultats suggèrent également que le modèle mémorisé des parties des articles du New York Times, bien qu’à un taux relativement inférieur.

Abhilasha Ravichander, doctorante à l’Université de Washington et co-auteur de l’étude, a déclaré à TechCrunch que les résultats ont mis en lumière les modèles de «données controversées» auraient pu être formés.

« Afin d’avoir des modèles de langage large qui sont dignes de confiance, nous devons avoir des modèles que nous pouvons sonder, auditer et examiner scientifiquement », a déclaré Ravichander. «Notre travail convient à fournir un outil pour sonder les modèles de grandes langues, mais il y a un besoin réel d’une plus grande transparence des données dans tout l’écosystème.

OpenAI a longtemps plaidé pour les restrictions plus lâches sur le développement de modèles à l’aide de données protégées par le droit d’auteur. Bien que l’entreprise ait certaines offres de licence de contenu en place et propose des mécanismes d’opt-out qui permettent aux titulaires de droits d’auteur de signaler le contenu qu’elles ne sont pas utilisées à des fins de formation, il a fait pression sur plusieurs gouvernements pour codifier les règles de «rétention» concernant les approches de formation de l’IA.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLes dirigeants canadiens et mexicains sont crédités en esquivant les derniers tarifs américains
Next Article Les hedge funds ont frappé l’appel de marge le plus net depuis la crise covide de 2020
John
  • Website

Related Posts

Le président du conseil d’administration de Tesla appelle le débat sur le pack de paiement de 1 t $ d’Elon Musk ‘Un peu bizarre’

septembre 13, 2025

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages ​​de drones de Rainmaker du Rainmaker

septembre 13, 2025

Les législateurs de Californie adoptent l’IA de la sécurité du projet de loi SB 53 – mais Newsom pourrait encore opposer son veto

septembre 13, 2025

3 erreurs financières comme les nouveaux entrepreneurs font lors de la planification de l’avenir de leurs enfants

septembre 13, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Fichiers LendBuzz FinTech Lendch FinTech pour les introductions en bourse

septembre 12, 2025

Comment les crypto-monnaies, les fintechs et l’IA peuvent remodeler la géopolitique mondiale de l’avenir

septembre 11, 2025

APAC offre un grand potentiel de croissance, mais le succès nécessite une stratégie de paiement localisée

septembre 11, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

La star de « Million Dollar Listing » Fredrik Ecklund dit que Gen Z n’a pas besoin d’un diplôme universitaire pour arriver sur l’immobilier: « Vous devez sortir dans la rue. »

septembre 14, 2025

Fondée par le secrétaire à l’énergie de Trump, Liberty Energy vise à diriger l’avenir de la fracturation

septembre 14, 2025

Qu’est-ce que la mode a à voir avec Freud? L’exposition de New York décompose les connexions

septembre 14, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.