Eleutherai, une organisation de recherche sur l’IA, a publié ce qu’elle prétend être l’une des grandes collections de texte de licence et de domaine ouvert pour la formation des modèles d’IA.
L’ensemble de données, appelé Common Pile V0.1, a pris environ deux ans pour se terminer en collaboration avec les startups AI au bord de la piscine, des câlins et d’autres, ainsi que plusieurs institutions universitaires. Pondération en taille à 8 térabbytes, la pile commune V0.1 a été utilisée pour former deux nouveaux modèles d’IA d’Eleutherai, Comma V0.1-1T et Command V0.1-2T, que les affirmations Eleutherai fonctionnent par des modèles développés à l’aide de données non licenciées et protégées par le droit d’auteur.
Les sociétés d’IA, y compris OpenAI, sont brochées dans les poursuites sur leurs pratiques de formation d’IA, qui s’appuient sur le grattage du Web – y compris le matériel protégé par le droit d’auteur comme les livres et les revues de recherche – pour créer des ensembles de données de formation de modèles. Alors que certaines sociétés d’IA ont des dispositions de licence avec certains fournisseurs de contenu, la plupart gardent la doctrine juridique américaine de l’utilisation équitable qui les protège de la liababilité dans les boîtes où elles se sont formées sur le travail du droit d’auteur sans autorisation.
Eleutherai soutient que ces poursuites ont «considérablement diminué» la transparence des sociétés d’IA, ce qui, selon l’organisation, a nui au domaine de la recherche en IA plus large en rendant plus difficile de comprendre comment les modèles fonctionnent et quels pourraient être leurs défauts.
«Les poursuites (des droits d’auteur) n’ont pas changé de manière significative sur les pratiques de sorciation de données dans la formation (modèle), mais elles ont considérablement décrété les sociétés de transparence qui s’engagent», a écrit Stella Biderman, le directeur exécutif d’Eleutherai, dans un article de blog sur l’étreinte début vendredi. «Des chercheurs de certaines entreprises dont nous avons parlé ont également cité spécifiquement des poursuites comme la raison pour laquelle ils n’ont pas pu publier les recherches qu’elles font dans des domaines hautement centrés sur les données.
La pile commune V0.1, qui peut être téléchargée à partir de la plate-forme AI Dev et Github de Hugging Face, a été créée en consultation avec des experts juridiques, et il s’appuie sur des sources, y compris 300 000 livres de domaine numérisés par la Bibliothèque du Congrès et les archives Internet. Eleutherai a également utilisé Whisper, le modèle Open Source Speech the-Text d’OpenIE, pour transcrire du contenu audio.
Eleutherai affirme que la virgule V0.1-1t et le commandement v0.1-2t sont des preuves que la pile commune V0.1 a été soigneusement organisée en Enugh pour permettre aux développeurs de créer des modèles de concurrence avec des alternatives d’usines. Selon Eleutherai, les modèles, tous deux de 7 milliards de paramètres et ont été formés qu’une fraction du Pile V0.1 commune, comme le premier modèle LLAMA AI de Meta sur les références pour le codage, la compréhension de l’image et les mathématiques.
Les paramètres, parfois réduisés en poids, sont les composants internes d’un modèle d’IA qui guident son comportement et ses réponses.
« En général, nous pensons que l’idée commune que les performances de texte sans licence sont ajustifiées », a écrit Biderman dans son article. «À mesure que la quantité de données accessibles de licence et de domaine public augmente, nous pouvons nous attendre à ce que la qualité des modèles formés sur le contenu de licence ouverte s’améliore.
La pile commune V0.1 semble être en partie un effort pour corriger les torts historiques d’Eleutherai. Il y a des années, la société a publié The Pile, une collection ouverte de texte de formation qui comprenait du matériel protégé par le droit d’auteur. Les sociétés d’IA ont été critiquées – et la pression légale – pour l’utilisation de la pile pour former des modèles.
Eleutherai s’engage à publier des ensembles de données ouverts plus fréquemment à l’avenir en collaboration avec ses partenaires de recherche et d’infrastructure.
Mis à jour 9 h 48 Pacific: Biderman a précisé dans un article sur X qu’Eleutherai a contribué à la publication des ensembles de données et des modèles, mais que leur développement impliquait Mary Partners, comprenait l’Université de Toronto, qui a aidé à mener la recherche.