Une paire d’étudiants de premier cycle, ni avec une vaste expertise en IA, disent que cela a créé un modèle d’IA ouvertement avaiable qui peut générer des clips de style podcast similaires à NotebookLM de Google.
Le marché des outils vocaux synthétiques est vaste et en croissance. ElevenLabs est l’un des grands joueurs, mais il n’y a pas de pénurie de challengers (voir Playai, sésame, etc.). Les investisseurs pensent que ces outils ont un énorme potentiel. Selon PitchBook, les startups développant la voix de la voix AI ont recueilli plus de 398 millions de dollars de financement en capital-risque l’année dernière.
Toby Kim, l’un des cofondateurs de Corée de Nari Labs, le groupe derrière le modèle nouvellement sorti, a déclaré que lui et son collègue co-fondateur avaient commencé à découvrir l’IA de discours il y a trois mois. Inspiré par Notebooklm, ils voulaient créer un modèle qui offrait plus de contrôle sur les voix générées et la «liberté dans le script».
Kim dit qu’ils ont utilisé le programme de cloud TPU Research de Google, qui fournit des chercheurs ayant un accès gratuit aux puces AI TPU de l’entreprise, pour former le modèle de Nari, Dia. Pondération dans 1,6 milliard de paramètres, le DIA peut générer un dialogue à partir d’un script, permettant aux utilisateurs de personnaliser les tons des haut-parleurs et d’insérer des disfluences, des toux, des rires et d’autres indices non verbaux.
Les paramètres sont les modèles de variables internes utilisés pour faire des prédictions. Généralement, les modèles avec plus de paramètres fonctionnent mieux.
Disponible à partir de la plate-forme AI Dev Huging Face et Github, DIA peut fonctionner sur la plupart des PC modernes avec au moins 10 Go de Trum. Il génère une voix aléatoire à moins d’inviter avec une description d’un style prévu, mais il peut également cloner la voix d’une personne.
Dans les brefs tests de TechCrunch de la DIA via la démo Web de Nari, le DIA a très bien fonctionné, sans se plaindre de générer des chats bidirectionnels sur n’importe quel sujet. La qualité des voix semble compétitive avec d’autres outils, et la fonction de clonage vocale fait partie de l’EASST que ce journaliste a essayé.
Voici un échantillon:
Cependant, comme de nombreux générateurs de voix, DIA offre peu de garanties. Il serait trivialement facile de créer une désinformation ou un enregistrement arcmautique. Sur les pages du projet de DIA, Nari décourage l’abus du modèle à des impergents, tromper ou embauche autrement dans la campagne illicite, mais le groupe dit qu’il n’est pas responsable de la mauvaise utilisation.
Nari a également révélé quelles données il a gratté pour entraîner le dia. Il est possible que le dia a été développé en utilisant du contenu protégé par le droit d’auteur – pour commenter les actualités de hacker note qu’un échantillon ressemble au podcast «Planet Money» de NPR. Les modèles de formation sur le contenu protégé par le droit d’auteur sont une pratique répandue mais légalement douteuse. Certaines sociétés d’IA affirment que l’utilisation équitable les protège de la liababilité, tandis que les titulaires de droits nettent que l’utilisation équitable n’est pas pour la formation.
En tout état de cause, Kim dit que le plan de Nari est de créer une plate-forme vocale synthétique avec un «aspect social» en plus de la dia et des modèles plus grands et futurs. Nari a également l’intention de publier un rapport technique pour la DIA et d’étendre le support du modèle aux langues au-delà de l’anglais.