La société AI Sesame a publié le modèle de base qui alimente Maya, l’assistante vocale impressionnante réaliste.
Le modèle, qui est de 1 milliard de paramètres de taille («paramètres» se refantant aux composants individuels du modèle), est sous une licence Apache 2.0, ce qui signifie qu’il peut être commercialement avec peu de restrictions. Appelé CSM-1B, le modèle génère des «codes audio RVQ» à partir des entrées de texte et audio, selon la description de Sesame sur la plate-forme de développement AI étreignant la face.
RVQ fait référence à la «quantité de vecteur résiduel», une technique de mise en forme de l’audio en jetons discrets appelés codes. RVQ est utilisé dans un certain nombre de technologies audio AI récentes, incluant le SoundStream de Google et l’encodec de META.
CSM-1b utilise un modèle de la famille Llama de Meta comme son épine dorsale associé à un composant audio «Decoder». Une variante affinée de CSM Powers Maya, dit Sesame.
«Le modèle ouvert ici est basé sur le modèle de génération», écrit Sesame dans le visage étreint de CSM-1b et les restaurants GitHub. «Il est capable de produire une variété de voix, mais il n’a pas été affiné d’une voix spécifique (…) Le modèle a été la capacité de langues non anglophones en raison de la contamination des données dans les données de formation, mais cela ne fera probablement pas bien.»
On ne sait pas quelles données sésame ont utilisé pour former CSM-1b. L’entreprise n’a pas dit.
Il convient de noter que le modèle n’a pas de véritables garanties à parler. Sesame a un système d’honneur et invite simplement le développement et les utilisateurs à ne pas utiliser le modèle pour imiter la voix d’une personne sans leur consentement, créer du contenu trompeur comme de fausses nouvelles, ou s’engage dans des activités «nocives» ou «malveillantes».
J’ai essayé la démo en étreignant le visage, et le clonage de ma voix a pris moins qu’en minute. De là, il était facile de générer un discours dans le désir de mon cœur, inclus sur des sujets controversés comme l’élection et la propagande russe.
Consumer Reports a récemment averti que de nombreux outils populaires de clonage vocal AI-Power sur le marché n’ont pas de garanties «significatives» pour prévenir la fraude ou les abus.
Sesame, co-fondé par la co-création d’Oculus, Brendan Iribe, est devenu viral fin février pour sa technologie adjointe, qui se rapproche du territoire Uncanny Valley. L’autre assistant de Maya et de Sesame, Miles, respire et parle avec les réfluence, et peut être interrompue en parlant, un peu comme le mode vocal d’Openai.
Sesame a levé un Amvent de capital non divulgué d’Andreessen Horowitz, Spark Capital et Matrix Partners. En plus de construire la technologie vocale Assistant Tech, la société affirme que c’est le prototypage des lunettes AI «conçues pour être portées toute la journée» qui seront équipées de ses modèles personnalisés.