Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

M. Darcy et l’effet Mandela

juin 8, 2025

La Chine est armée pour plus de batailles de contrôle des exportations

juin 8, 2025

Le lancement de la stratégie industrielle du Royaume-Uni, repoussée d’ici la fin juin

juin 8, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » ELEUTHERAI MASSIVE IA TRAINING DATAASE DATAS OF LICENTE ET Texte de domaine ouvert
Startups

ELEUTHERAI MASSIVE IA TRAINING DATAASE DATAS OF LICENTE ET Texte de domaine ouvert

JohnBy Johnjuin 6, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Eleutherai, une organisation de recherche sur l’IA, a publié ce qu’elle prétend être l’une des grandes collections de texte de licence et de domaine ouvert pour la formation des modèles d’IA.

L’ensemble de données, appelé Common Pile V0.1, a pris environ deux ans pour se terminer en collaboration avec les startups AI au bord de la piscine, des câlins et d’autres, ainsi que plusieurs institutions universitaires. Pondération en taille à 8 térabbytes, la pile commune V0.1 a été utilisée pour former deux nouveaux modèles d’IA d’Eleutherai, Comma V0.1-1T et Command V0.1-2T, que les affirmations Eleutherai fonctionnent par des modèles développés à l’aide de données non licenciées et protégées par le droit d’auteur.

Les sociétés d’IA, y compris OpenAI, sont brochées dans les poursuites sur leurs pratiques de formation d’IA, qui s’appuient sur le grattage du Web – y compris le matériel protégé par le droit d’auteur comme les livres et les revues de recherche – pour créer des ensembles de données de formation de modèles. Alors que certaines sociétés d’IA ont des dispositions de licence avec certains fournisseurs de contenu, la plupart gardent la doctrine juridique américaine de l’utilisation équitable qui les protège de la liababilité dans les boîtes où elles se sont formées sur le travail du droit d’auteur sans autorisation.

Eleutherai soutient que ces poursuites ont «considérablement diminué» la transparence des sociétés d’IA, ce qui, selon l’organisation, a nui au domaine de la recherche en IA plus large en rendant plus difficile de comprendre comment les modèles fonctionnent et quels pourraient être leurs défauts.

«Les poursuites (des droits d’auteur) n’ont pas changé de manière significative sur les pratiques de sorciation de données dans la formation (modèle), mais elles ont considérablement décrété les sociétés de transparence qui s’engagent», a écrit Stella Biderman, le directeur exécutif d’Eleutherai, dans un article de blog sur l’étreinte début vendredi. «Des chercheurs de certaines entreprises dont nous avons parlé ont également cité spécifiquement des poursuites comme la raison pour laquelle ils n’ont pas pu publier les recherches qu’elles font dans des domaines hautement centrés sur les données.

La pile commune V0.1, qui peut être téléchargée à partir de la plate-forme AI Dev et Github de Hugging Face, a été créée en consultation avec des experts juridiques, et il s’appuie sur des sources, y compris 300 000 livres de domaine numérisés par la Bibliothèque du Congrès et les archives Internet. Eleutherai a également utilisé Whisper, le modèle Open Source Speech the-Text d’OpenIE, pour transcrire du contenu audio.

Eleutherai affirme que la virgule V0.1-1t et le commandement v0.1-2t sont des preuves que la pile commune V0.1 a été soigneusement organisée en Enugh pour permettre aux développeurs de créer des modèles de concurrence avec des alternatives d’usines. Selon Eleutherai, les modèles, tous deux de 7 milliards de paramètres et ont été formés qu’une fraction du Pile V0.1 commune, comme le premier modèle LLAMA AI de Meta sur les références pour le codage, la compréhension de l’image et les mathématiques.

Les paramètres, parfois réduisés en poids, sont les composants internes d’un modèle d’IA qui guident son comportement et ses réponses.

« En général, nous pensons que l’idée commune que les performances de texte sans licence sont ajustifiées », a écrit Biderman dans son article. «À mesure que la quantité de données accessibles de licence et de domaine public augmente, nous pouvons nous attendre à ce que la qualité des modèles formés sur le contenu de licence ouverte s’améliore.

La pile commune V0.1 semble être en partie un effort pour corriger les torts historiques d’Eleutherai. Il y a des années, la société a publié The Pile, une collection ouverte de texte de formation qui comprenait du matériel protégé par le droit d’auteur. Les sociétés d’IA ont été critiquées – et la pression légale – pour l’utilisation de la pile pour former des modèles.

Eleutherai s’engage à publier des ensembles de données ouverts plus fréquemment à l’avenir en collaboration avec ses partenaires de recherche et d’infrastructure.

Mis à jour 9 h 48 Pacific: Biderman a précisé dans un article sur X qu’Eleutherai a contribué à la publication des ensembles de données et des modèles, mais que leur développement impliquait Mary Partners, comprenait l’Université de Toronto, qui a aidé à mener la recherche.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleTucker Carlson était sur la liste des investisseurs potentiels de la Maison Blanche à Tiktock
Next Article Startup de test de génétique Nucleus Genomics a critiqué pour son produit d’embryon: «me rend si nauséeux»
John
  • Website

Related Posts

Les avocats pourraient être confrontés à des sanctions «graves» pour de fausses citations générales, le tribunal britannique avertit

juin 7, 2025

iOS 19: Tous les changements de rumeur Apple pourrait apporter à son nouveau système d’exploitation

juin 7, 2025

L’administration Trump vise les règles de cybersécurité de Biden et Obama

juin 7, 2025

WWDC 2025: À quoi s’attendre de la conférence de cette année

juin 7, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Le chagrin de la fintech de Londres se propage alors que le sage déplace la liste principale vers nous

juin 7, 2025

La startup fintech Decentro augmente 30 crore £ pour déplacer sa résidence en Inde

juin 6, 2025

Startup fintech Decentro Bag INR 30 Cr, planification inversée Flip

juin 6, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

M. Darcy et l’effet Mandela

juin 8, 2025

La Chine est armée pour plus de batailles de contrôle des exportations

juin 8, 2025

Le lancement de la stratégie industrielle du Royaume-Uni, repoussée d’ici la fin juin

juin 8, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.