ElevenLabs lance son modèle de discours sur le texte OWS

ElevenLabs, une startup en IA qui vient de passer à 180 millions de dollars de méga-financement, a été principalement connu pour ses prouesses de génération audio. La société a fait un pas dans une autre direction technologique en lançant son premier modèle de parole autonome appelé Scribe.

La startup, évaluée à 3,3 milliards de dollars, a aidé de nombreuses entreprises à fournir des services de discours à texte via sa vaste bibliothèque de voix. Cependant, l’entreprise cherche maintenant à se lancer dans la détection de la parole et à rivaliser avec les modèles Gladia, Speechmatics, Assemblyai, Deepgram et Openai.

Le modèle de scribe d’ElevenLabs prend en charge plus de 99 langues au lancement. La société classe plus de 25 langues dans une excellente catégorie de précision pour le modèle où le taux d’erreur de mot est inférieur à 5%. Cette liste comprend l’anglais (taux de précision revendiqué de 97%), le français, l’allemand, l’hindi, l’Indonésien, le japonais, le kannada, le malayalam, le polonais, le portuee, l’espagnol et le vietnamien. D’autres langues sont classées dans différentes catégories avec un taux d’erreur de mots élevé (5 à 10%), un bon taux d’erreur de mot 10 à 20%) et des taux d’erreur de mot modérés (25 à 50%).

La société a déclaré que le modèle a surpassé Google Gemini 2.0 flash et chuchotement V3 sur plusieurs langues dans les tests de référence Flowers & Common Voice.

ElevenLabs avait développé le composant discours à texte pour sa plate-forme d’agent conversationnel AI, qui a été publiée en dernier. Cependant, c’est la première fois que la société publie un modèle de détection de parole autonome. Dans une conversation avec TechCrunch le mois dernier, le PDG Mati Staniszewski a parlé d’améliorer les modèles de détection de la parole.

«Nous voulons comprendre ce qui vous dit dans une meilleure conversation. Nous travaillons sur des moyens de nous éloigner de la génération de contenu et de compréhension et de transcription de la parole », a déclaré Staniszewski à ce moment-là. «Beaucoup de gens disent que le discours-texte est un problème résolu. Mais pour de nombreuses langues, c’est assez mauvais. Nous pensons que nous pouvons construire de meilleurs modèles de détection de parole parce que nous avons des équipes internes pour annoter les données et nous donner des commentaires rapides. «

Le modèle a également une diarisation intelligente du haut-parleur pour vous dire qui parle, l’horodatage au niveau des mots pour des sous-titres précis et des événements sonores de marquage comme des rire du public. La startup offre aux clients un moyen de transcrire directement le contenu vidéo pour ajouter des sous-titres ou des légendes dans son studio.

SCRIBER ne fonctionne actuellement qu’avec des formats audio préenregistrés. La société a déclaré qu’elle publierait bientôt une version en temps réel de faible latence du modèle. Cela signifie qu’il n’est pas efficace pour rencontrer des transcriptions ou des notes vocales.

ElevenLabs est un scribe de tarification à 0,40 $ pour une heure d’audio transcube. Bien que le espiègle soit compétent, certains de ses rivaux offraient actuellement un prix bas pour les transcriptions audio avec une certaine différenciation des fonctionnalités.

Source link

What's Hot

Le pari de 2 milliards de dollars de Nvidia sur Synopsys renforce son emprise sur la pile de conception de puces

Elon Musk, qui vient d’obtenir un salaire de 1 000 milliards de dollars, affirme que la philanthropie est « très difficile »

Comment les chefs d’entreprise de la nouvelle génération utilisent l’IA pour se préparer aux négociations d’accords à enjeux élevés et aux interactions quotidiennes

ElevenLabs lance son modèle de discours sur le texte OWS

Le pari de 2 milliards de dollars de Nvidia sur Synopsys renforce son emprise sur la pile de conception de puces

At least 80 new tech unicorns were minted in 2025 so far

Black Forest Labs lève 300 millions de dollars pour une valorisation de 3,25 milliards de dollars

Le coréen Coupang affirme qu’une violation de données a exposé les informations personnelles de près de 34 millions de clients

Money 20/20 Dates: Your Guide to the Premier FinTech Event in 2025 and Beyond

Le Singapore FinTech Festival 2025 a attiré plus de 70 000 participants pour sa 10e édition

Beyond Solutions et Bahrain Fintech Bay signent un protocole d’accord pour renforcer la coopération et soutenir la transformation numérique

Top Insights

Le pari de 2 milliards de dollars de Nvidia sur Synopsys renforce son emprise sur la pile de conception de puces

Elon Musk, qui vient d’obtenir un salaire de 1 000 milliards de dollars, affirme que la philanthropie est « très difficile »

Comment les chefs d’entreprise de la nouvelle génération utilisent l’IA pour se préparer aux négociations d’accords à enjeux élevés et aux interactions quotidiennes

What's Hot

ElevenLabs lance son modèle de discours sur le texte OWS

Related Posts

Subscribe to Updates