Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Corgi, la startup technologique d’assurance soutenue par Y Combinator, affirme qu’elle n’a pas volé de produit open source

juin 26, 2026

Les actionnaires de Red Lobster affirment que les désastres sans fin des crevettes étaient un complot visant à réduire les bénéfices

juin 26, 2026

The Best Beef Organ Supplements (2026)

juin 26, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » ELEUTHERAI MASSIVE IA TRAINING DATAASE DATAS OF LICENTE ET Texte de domaine ouvert
Startups

ELEUTHERAI MASSIVE IA TRAINING DATAASE DATAS OF LICENTE ET Texte de domaine ouvert

JohnBy Johnjuin 6, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Eleutherai, une organisation de recherche sur l’IA, a publié ce qu’elle prétend être l’une des grandes collections de texte de licence et de domaine ouvert pour la formation des modèles d’IA.

L’ensemble de données, appelé Common Pile V0.1, a pris environ deux ans pour se terminer en collaboration avec les startups AI au bord de la piscine, des câlins et d’autres, ainsi que plusieurs institutions universitaires. Pondération en taille à 8 térabbytes, la pile commune V0.1 a été utilisée pour former deux nouveaux modèles d’IA d’Eleutherai, Comma V0.1-1T et Command V0.1-2T, que les affirmations Eleutherai fonctionnent par des modèles développés à l’aide de données non licenciées et protégées par le droit d’auteur.

Les sociétés d’IA, y compris OpenAI, sont brochées dans les poursuites sur leurs pratiques de formation d’IA, qui s’appuient sur le grattage du Web – y compris le matériel protégé par le droit d’auteur comme les livres et les revues de recherche – pour créer des ensembles de données de formation de modèles. Alors que certaines sociétés d’IA ont des dispositions de licence avec certains fournisseurs de contenu, la plupart gardent la doctrine juridique américaine de l’utilisation équitable qui les protège de la liababilité dans les boîtes où elles se sont formées sur le travail du droit d’auteur sans autorisation.

Eleutherai soutient que ces poursuites ont «considérablement diminué» la transparence des sociétés d’IA, ce qui, selon l’organisation, a nui au domaine de la recherche en IA plus large en rendant plus difficile de comprendre comment les modèles fonctionnent et quels pourraient être leurs défauts.

«Les poursuites (des droits d’auteur) n’ont pas changé de manière significative sur les pratiques de sorciation de données dans la formation (modèle), mais elles ont considérablement décrété les sociétés de transparence qui s’engagent», a écrit Stella Biderman, le directeur exécutif d’Eleutherai, dans un article de blog sur l’étreinte début vendredi. «Des chercheurs de certaines entreprises dont nous avons parlé ont également cité spécifiquement des poursuites comme la raison pour laquelle ils n’ont pas pu publier les recherches qu’elles font dans des domaines hautement centrés sur les données.

La pile commune V0.1, qui peut être téléchargée à partir de la plate-forme AI Dev et Github de Hugging Face, a été créée en consultation avec des experts juridiques, et il s’appuie sur des sources, y compris 300 000 livres de domaine numérisés par la Bibliothèque du Congrès et les archives Internet. Eleutherai a également utilisé Whisper, le modèle Open Source Speech the-Text d’OpenIE, pour transcrire du contenu audio.

Eleutherai affirme que la virgule V0.1-1t et le commandement v0.1-2t sont des preuves que la pile commune V0.1 a été soigneusement organisée en Enugh pour permettre aux développeurs de créer des modèles de concurrence avec des alternatives d’usines. Selon Eleutherai, les modèles, tous deux de 7 milliards de paramètres et ont été formés qu’une fraction du Pile V0.1 commune, comme le premier modèle LLAMA AI de Meta sur les références pour le codage, la compréhension de l’image et les mathématiques.

Les paramètres, parfois réduisés en poids, sont les composants internes d’un modèle d’IA qui guident son comportement et ses réponses.

« En général, nous pensons que l’idée commune que les performances de texte sans licence sont ajustifiées », a écrit Biderman dans son article. «À mesure que la quantité de données accessibles de licence et de domaine public augmente, nous pouvons nous attendre à ce que la qualité des modèles formés sur le contenu de licence ouverte s’améliore.

La pile commune V0.1 semble être en partie un effort pour corriger les torts historiques d’Eleutherai. Il y a des années, la société a publié The Pile, une collection ouverte de texte de formation qui comprenait du matériel protégé par le droit d’auteur. Les sociétés d’IA ont été critiquées – et la pression légale – pour l’utilisation de la pile pour former des modèles.

Eleutherai s’engage à publier des ensembles de données ouverts plus fréquemment à l’avenir en collaboration avec ses partenaires de recherche et d’infrastructure.

Mis à jour 9 h 48 Pacific: Biderman a précisé dans un article sur X qu’Eleutherai a contribué à la publication des ensembles de données et des modèles, mais que leur développement impliquait Mary Partners, comprenait l’Université de Toronto, qui a aidé à mener la recherche.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleTucker Carlson était sur la liste des investisseurs potentiels de la Maison Blanche à Tiktock
Next Article Startup de test de génétique Nucleus Genomics a critiqué pour son produit d’embryon: «me rend si nauséeux»
John
  • Website

Related Posts

Corgi, la startup technologique d’assurance soutenue par Y Combinator, affirme qu’elle n’a pas volé de produit open source

juin 26, 2026

Novak Djokovic a un nouvel emploi : conseiller auprès de la société de capital-investissement General Atlantic

juin 26, 2026

OpenAI limite le déploiement de GPT-5.6 à la demande du gouvernement et affirme que les restrictions ne devraient pas être la norme

juin 26, 2026

OpenAI débauche le chef d’Uber Inde pour diriger son plus grand marché en dehors des États-Unis

juin 26, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Quelles actions fintech sont les meilleures à acheter en 2026 ?

juin 26, 2026

MAS lance le Future of Finance Institute pour amener l’IA et la tokenisation au-delà des projets pilotes

juin 26, 2026

The AI Race In Fintech Comes Down To One Thing: Trust

juin 25, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Corgi, la startup technologique d’assurance soutenue par Y Combinator, affirme qu’elle n’a pas volé de produit open source

juin 26, 2026

Les actionnaires de Red Lobster affirment que les désastres sans fin des crevettes étaient un complot visant à réduire les bénéfices

juin 26, 2026

The Best Beef Organ Supplements (2026)

juin 26, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.