Microsoft lance un projet de recherche pour estimer l’influence des examens de formation spécifiques sur le texte, les images et d’autres types de médias que les modèles d’IA génératifs créent.
C’est par une liste d’emplois datant de décembre qui a récemment été recirculaté sur LinkedIn.
Selon la liste, qui cherche un stagiaire de recherche, le projet Attamt pour démontrer que les modèles peuvent être formés de telle manière que l’impact de données particulières – par exemple, les photos et les livres – sur leurs résultats peuvent être «efficacement et utilement estimés».
«Les architectures de réseau neuronal actuelles sont opaques en termes de fourniture de sources pour leurs générations, et il y a (…) de bonnes raisons de changer cela», lit-on dans la liste. «(L’une est, incitative) incitative, reconnaissance et pair pour les personnes qui contribuent à certaines données précieuses à des types de modèles imprévus que nous voulons à l’avenir, supposer que l’avenir nous surprendra fondamentalement.
Le texte, le code, l’image, la vidéo et les générateurs de chansons de l’IA sont au centre d’un certain nombre de poursuites IP contre les sociétés d’IA. Souvent, ces entreprises forment leurs modèles sur l’amour massif des données du site Web public, dont certains sont des droits d’auteur. De nombreuses entreprises soutiennent que la doctrine de l’utilisation équitable protège leurs pratiques de crampons et de formation de données. Mais créatif – des artistes aux auteurs – en désaccord.
Microsoft lui-même est confronté à au moins deux défis juridiques des détenteurs de droits d’auteur.
Le New York Times a poursuivi le géant de la technologie et son collaborateur parfois, Openai, en décembre, accusant les deux sociétés d’avoir enfreint le droit d’auteur du Times en déploiant des modèles formés sur des millions de ses. Plusieurs développeurs de logiciels ont également déposé à la suite de Microsoft, affirmant que l’assistant de codage GitHub Copilot AI de l’entreprise avait été formé illégalement à l’aide de leurs œuvres protégées.
Le nouvel effort de recherche de Microsoft, que la liste décrit comme une «provenance du temps de formation», aurait l’implication de Jaron Lanier, la technologie accomplie et le scientifique interdisciplinaire chez Microsoft Research. Dans un éditorial d’avril 2023 dans le New Yorker, Lanier a écrit sur le concept de «dignité des données», qui signifiait pour lui connecter des «trucs numériques» avec «les humains qui veulent être connus pour l’avoir fait».
«Dans l’approche de la dignité des données, tracerait les contributeurs les plus uniques et les plus grippaux lorsqu’un grand modèle fournit une production précieuse», a écrit Lanier. «Par exemple, si vous demandez un modèle pour` `un film animé de mes enfants dans un monde de peinture à l’huile de chats qui parlent dans une aventure », alors certains peintres à l’huile clés, les portraitistes de chats, les acteurs de la voix et l’écrivain – ou leur domaine, il est calculé pour avoir été particulièrement essentiel au nouveau chef-d’œuvre.
Il n’y a, pas pour rien, déjà plusieurs entreprises qui tentent cela. Le développeur du modèle d’IA, Bria, qui a récemment levé 40 millions de dollars en capital-risque, prétend «par programmation» compenser les propriétaires de données à leur «influence globale». Adobe et Shutterstock accordent également des paiements réguliers aux contributeurs de l’ensemble de données, bien que l’amour exact du paiement ait tendance à être opaque.
Peu de grands laboratoires ont établi des programmes de paiement de contributeurs individuels en dehors des accords d’octroi de licences avec des éditeurs, des plateformes et des courtiers de données. Ils ont fourni des moyens pour les titulaires de droits d’auteur de «retirer» la formation. Mais certains de ces processus de désactivation sont onéreux, et seulement une application aux futurs modèles qui ne sont pas précédemment formés.
De race, le projet de Microsoft ne peut représenter que peu plus qu’une preuve de concept. Il y a précédent pour cela. En mai, Openai a déclaré qu’il développait une technologie similaire qui a permis aux créateurs de savoir comment ils? Mais près d’un an plus tard, l’outil n’a pas encore vu le jour, et il a souvent été considéré comme une priorité en interne.
Microsoft peut également essayer de «se laver en éthique» ici – ou de décourager les décisions réglementaires et / ou de perturbation de ses activités.
Mais que l’entreprise enquête sur les moyens de retracer la formation est notable à la lumière des autres positions exprimées de manière ridicule de l’IA sur une utilisation équitable. Plusieurs des meilleurs laboratoires, dont Google et OpenAI, ont publié des documents de politique recommandant que l’administration Trump affaiblit les protections du droit d’auteur ASYy se rapporte au développement de l’IA. OpenAI a explicitement appelé le gouvernement américain à codifier une utilisation équitable pour la formation des modèles, ce qu’il soutient libérerait les développeurs à partir de restrictions lourdes.
Microsoft n’a pas lâché imminent à une demande de commentaires.

