Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Le début de la 99 Speed ​​Mart en Asie du Sud-Est 500 est la dernière étape importante pour la société et son fondateur, le survivant de l’enfance de la polio

juin 21, 2025

Ondulant l’espion dit que les hommes l’ont suivi et que sa femme a peur

juin 20, 2025

Le laboratoire des machines de pensée de Mira Murati se rapproche de 2 milliards de dollars à une évaluation de 10 milliards de dollars

juin 20, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les chercheurs suggèrent que les modèles d’IA formés à Openai sur les livres O’Reilly ont été réalisés
Startups

Les chercheurs suggèrent que les modèles d’IA formés à Openai sur les livres O’Reilly ont été réalisés

JohnBy Johnavril 1, 2025Aucun commentaire5 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


OpenAI a été accusé par de nombreuses parties de former son IA sur le contenu du droit d’auteur sans autorisation. Maintenant, un nouveau document d’une organisation de surveillance de l’IA fait l’accusation sérieuse que la société s’appuyait incroyablement sur des livres non publiques qu’elle n’a pas permis de former des modèles d’IA plus sophistiqués.

Les modèles d’IA sont essentiellement un moteur de prédiction complexe. Formé sur de nombreuses données – livres, films, émissions de télévision, etc. – ils apprennent des modèles et de nouvelles façons d’extrapoler à partir d’une simple invite. Lorsqu’un modèle «écrit» un essai sur une tragédie grecque ou «dessine» des images de style ghibli-, elle tire simplement sa vaste connaissance à approximer. Il n’arrive à rien de nouveau.

Alors qu’un certain nombre de laboratoires d’IA, dont OpenAI, ont commencé à adopter des données générées par l’IA pour former des sources du monde réel d’échappement de l’IA ASY (principal sur le Web public), peu ont évité les données du monde réel. Cela est probablement parce que la formation sur les données purement synthétiques comporte des risques, comme l’aggravation des performances d’un modèle.

Le nouvel article, du projet de déviation de l’IA, un organisme à but non lucratif co-fondé en 2024 par le magnat des médias Tim O’Reilly et l’économiste Ilan Strauss, tire la conclusion qu’Openai a probablement formé son modèle GPT-4O sur les livres de paiement des médias O’Reilly. (O’Reilly est le PDG d’O’Reilly Media.)

Dans Chatgpt, GPT-4O est le modèle par défaut. O’Reilly n’a pas d’autorisation de licence avec Openai, indique le journal.

« GPT-4O, le modèle plus récent et capable d’Openai, démontre une forte reconnaissance du contenu du livre O’Reililly (…) par rapport au modèle précédent GPT-3.5 Turbo d’Openai », a écrit les co-auteurs de l’article. «En revanche, GPT-3.5 Turbo montre une plus grande reconnaissance liée aux échantillons de livres O’Reilly accessibles au public.»

Le document a utilisé une méthode appelée Depop, introduite pour la première fois dans un article académique en 2024, conçu pour détecter le contenu protégé par le droit d’auteur dans les données de formation des modèles de langues. Également connu sous le nom de «Ventack d’inférence d’adhésion», les tests de méthode qu’un modèle peut connecter distinguer les textes de l’auteur humain à partir de versions paraphrasées et générées par l’AI du même texte. Si cela le peut, cela suggère que le modèle pourrait avoir une connaissance préalable du texte à partir de ses données de formation.

Les co-auteurs du chercheur Paper-O’Reilly, Strauss et AI Sruly Rosenblat-Say qu’ils ont sondé GPT-4O, GPT-3.5 Turbo et d’autres connaissances des modèles Openai sur les livres de médias O’Reilly publiés avant et après leurs dates de coupure de formation. Ils ont utilisé 13,962 extraits de paragraphes de 34 O’Reilly Books pour estimer la probabilité qu’un extrait particulier ait été inclus dans un ensemble de données de formation d’un modèle.

Selon les résultats de l’article, le GPT-4O a «reconnu» le contenu du livre O’Reilly Warwalled que les anciens modèles d’OpenA, comprenaient GPT-3.5 Turbo. C’est même après avoir pris en compte les facteurs de confusion potentiels, ont déclaré les auteurs, comme les améliorations de la capacité plus récente des modèles à déterminer si le texte était autorisé à l’human.

«GPT-4O (probablement) reconnaît, tout comme la connaissance préalable de nombreux livres O’Reilly non publics publiés avant sa date de coupure de formation», a écrit les co-auteurs.

Ce n’est pas un pistolet de smoking, les co-auteurs font attention à noter. Ils reconnaissent que leur méthode d’expérience n’est pas infaillible et qu’Openai a peut-être collecté les extraits de livres de paiement des utilisateurs de la copie et de la collation dans Chatgpt.

En broyant davantage les eaux, les co-auto-auto-autorités n’ont pas évalué la plus récente collection de modèles d’Openai, qui comprend des modèles GPT-4.5 et «raisonnement» tels que O3-MINI et O1. Il est possible que ces modèles n’étaient pas formés sur les données du livre O’Reilly sur la rémunération, ou nous avons été formés à un peu que GPT-4O.

Cela étant dit, ce n’est un secret pour personne qu’Openai, qui a plaidé pour des restrictions plus lâches autour des modèles en développement à l’aide de données Copyrightd, recherche des données de formation de haute qualité depuis un certain temps. L’entreprise est allée jusqu’à embaucher des journalistes pour aider à affiner les résultats de ses modèles. C’est une tendance dans l’industrie plus large: les entreprises d’IA recrutant des experts dans des domaines comme la science et la physique pour que ces experts alimentent leurs connaissances en systèmes.

Il convient de noter que Openai Country pour au moins certaines de ses données de formation. La société a mis en place des accords avec des éditeurs de nouvelles, des réseaux sociaux, des bibliothèques de médias et autres. OpenAI propose également des mécanismes d’opt-out – bien que celles imparfaites – qui permettent aux titulaires de droits d’auteur de signaler le contenu qu’ils préfèrent que l’entreprise ne soit pas utilisée à des formes de formation.

Pourtant, alors que Openai combat plusieurs costumes sur ses pratiques de données de formation et le traitement de la loi sur le droit d’auteur en short américain, le papier O’Reilly n’est pas le look le plus flatteur.

Openai n’a pas répondu à une demande de comment.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLe géant américain de la technologie Qualcomm acquiert l’unité Genai de Vingroup au Vietnam
Next Article Quatre mesures pour stimuler le marché boursier de Singapour
John
  • Website

Related Posts

Ondulant l’espion dit que les hommes l’ont suivi et que sa femme a peur

juin 20, 2025

Le laboratoire des machines de pensée de Mira Murati se rapproche de 2 milliards de dollars à une évaluation de 10 milliards de dollars

juin 20, 2025

Cluelley, une startup qui aide à «tricher sur votre autre»

juin 20, 2025

TechCrunch Mobility: Applied Intuition’s Poppping Valuation, The New Age of Micromobility et Waymo’s Wild Week

juin 20, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Ce que les banquiers américains ont vu lors de la journée de démonstration du laboratoire d’innovation fintech

juin 20, 2025

Développement des compétences La fintech irlandaise nécessite une croissance et une concurrence

juin 20, 2025

L’IA Challenge Technode relie les talents fintech au premier plan de la finance

juin 19, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Le début de la 99 Speed ​​Mart en Asie du Sud-Est 500 est la dernière étape importante pour la société et son fondateur, le survivant de l’enfance de la polio

juin 21, 2025

Ondulant l’espion dit que les hommes l’ont suivi et que sa femme a peur

juin 20, 2025

Le laboratoire des machines de pensée de Mira Murati se rapproche de 2 milliards de dollars à une évaluation de 10 milliards de dollars

juin 20, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.