Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Jack Smith, qui a dirigé l’enquête de détective sur Trump, fait l’objet d’une enquête par le bureau des conseillers spéciaux.

août 2, 2025

L’OPEP + accepte une augmentation d’une autre alimentation en règle générale

août 2, 2025

« L’intimidation ne fonctionne pas »: Anupam Mittal dit que l’Inde a construit la technologie américaine plutôt que les crises de colère

août 2, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » MLCOMMONS et Embrasing Face Team pour publier un ensemble de données de discours massifs pour la recherche sur l’IA
Startups

MLCOMMONS et Embrasing Face Team pour publier un ensemble de données de discours massifs pour la recherche sur l’IA

JohnBy Johnjanvier 31, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


MLCommons, un groupe de travail sur la sécurité de l’IA à but non lucratif, s’est associé à la plate-forme AI Dev Huging Face pour publier l’une des grandes collections mondiales d’enregistrements vocaux du domaine public pour la recherche sur l’IA.

L’ensemble de données, appelé discours des personnes non supervisé, contient plus d’un million d’heures d’audio couvrant au moins 89 langues différentes. MLCommons dit qu’il était motivé à le créer par le désir de soutenir la R&D dans «divers domaines de la technologie de la parole».

«Soutenir la recherche plus large de traitement des langues naturelles pour les langues autres que l’anglais aide à amener les technologies de communication à plus de personnes dans le monde», a écrit l’organisation dans un article de blog jeudi. «Nous prévoyons que plusieurs voies pour que la communauté de la recherche continue de construire et de se développer, en particulier dans les domaines de l’amélioration des modèles de parole linguistiques de faibles ressources, de la reconnaissance de la parole améliorée à travers différents accents et dialectes, et de nouvelles applications dans la synthèse de la parole.»

C’est un objectif admirable, bien sûr. Mais les ensembles de données sur l’IA comme le discours des personnes non supervisés peuvent comporter des risques pour les chercheurs qui choisissent de les utiliser.

Les données biaisées sont l’un de ces risques. Les enregistrements dans le discours des personnes non supervisés sont venus d’Archive.org, l’organisme à but non lucratif peut-être mieux connu pour l’outil d’archivage Web Wayback Machival. Parce que de nombreux contributeurs d’Archive.org sont anglophones et américains – presque tous les enregistrements dans le discours des personnes non supervisés sont en anglais accent américain, selon la lecture sur la page formelle du projet.

Cela signifie que, sans filtrage minutieux, le système d’IA aime la reconnaissance de la parole et les modèles de synthétiseur vocal formés sur le discours des personnes non éprouvés pourraient présenter SOM des préjugés. Ils pourraient, par exemple, structurer pour transcrire l’anglais parlé par un orateur non natif, ou avoir du mal à générer des voix synthétiques dans des langues autres que l’anglais.

Le discours des personnes non supervisés pourrait également contenir des enregistrements de personnes ignorant que leurs voix sont utilisées à des fins de recherche – y compris les applications commerciales. Alors que MLCommons dit que tous les enregistrements de l’ensemble de données sont un domaine public ou disponibles sous licence Creative Commons, il y a des erreurs de possibilité.

Selon une analyse du MIT, les Hudreds des ensembles de données de formation AI AVAIable publiquement manquent d’informations sur l’octroi de licences et contiennent des erreurs. Les défenseurs des créateurs, notamment Ed Newton-Rex, le PDG de l’organisation à but non lucratif axée sur l’IA, axée sur l’éthique, ont fait valoir que les créateurs ne devraient pas être obligés de «retirer» des ensembles de données d’IA en raison du fait que Barden oney se retire sur ces créateurs .

« De nombreux créateurs (par exemple, les utilisateurs de Squarespace) n’ont aucun moyen significatif de se retirer », a écrit Newton-Rex dans Post sur X dernier en juin. «Pour les créateurs qui peuvent se retirer, il existe de multiples méthodes de retrait qui se chevauchent, qui sont (1) incroyablement déroutantes et (2) terriblement incomplètes dans leur couverture. Même si une opt-out universelle parfaite existait, il serait extrêmement injuste de mettre le Barden sur les créateurs, étant donné que Generative AI USS leur travail pour composer avec eux – Many ne réaliserait tout simplement pas qu’ils pourraient opter. « 

MLCommons dit qu’il est déterminé à mettre à jour, à maintenir et à améliorer la qualité du discours des personnes non intervivé. Mais étant donné les défauts potentiels, il appartient aux développeurs d’exercer un dépôt sérieux.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLe travail à distance est là pour rester et ces 3 «emplois sans expérience» sont sur le point d’exploser en 2025 Singapore News
Next Article La méta des parents de Facebook est discutée pour reconstruire en dehors du Delaware.
John
  • Website

Related Posts

Lina Khan pointe vers l’introduction en bourse Figma comme justification du pottrack M&A

août 2, 2025

Anthropic coupe l’accès d’Openai à ses modèles Claude

août 2, 2025

Ce à quoi les fondateurs devraient penser si vous cherchez à élever une série C

août 2, 2025

L’entreprise de capital-risque CRV augmente 750 millions de dollars, réduisant les effectifs après le retour des capitaux aux investisseurs

août 1, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

La société fintech Kirana Capital fait face à une crise de liquidité: certains prêteurs rappellent les prêts, tandis que d’autres ont attribué un privilège marqué par le FDS

août 2, 2025

Alors que les bénéfices montent en flèche, PB Fintech fera sa deuxième bouchée avec des fonds communs de placement

août 1, 2025

Alors que les bénéfices montent en flèche, PB Fintech fera son deuxième maillage avec des fonds communs de placement

août 1, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Jack Smith, qui a dirigé l’enquête de détective sur Trump, fait l’objet d’une enquête par le bureau des conseillers spéciaux.

août 2, 2025

L’OPEP + accepte une augmentation d’une autre alimentation en règle générale

août 2, 2025

« L’intimidation ne fonctionne pas »: Anupam Mittal dit que l’Inde a construit la technologie américaine plutôt que les crises de colère

août 2, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.