ElevenLabs, une startup en IA qui vient de passer à 180 millions de dollars de méga-financement, a été principalement connu pour ses prouesses de génération audio. La société a fait un pas dans une autre direction technologique en lançant son premier modèle de parole autonome appelé Scribe.
La startup, évaluée à 3,3 milliards de dollars, a aidé de nombreuses entreprises à fournir des services de discours à texte via sa vaste bibliothèque de voix. Cependant, l’entreprise cherche maintenant à se lancer dans la détection de la parole et à rivaliser avec les modèles Gladia, Speechmatics, Assemblyai, Deepgram et Openai.
Le modèle de scribe d’ElevenLabs prend en charge plus de 99 langues au lancement. La société classe plus de 25 langues dans une excellente catégorie de précision pour le modèle où le taux d’erreur de mot est inférieur à 5%. Cette liste comprend l’anglais (taux de précision revendiqué de 97%), le français, l’allemand, l’hindi, l’Indonésien, le japonais, le kannada, le malayalam, le polonais, le portuee, l’espagnol et le vietnamien. D’autres langues sont classées dans différentes catégories avec un taux d’erreur de mots élevé (5 à 10%), un bon taux d’erreur de mot 10 à 20%) et des taux d’erreur de mot modérés (25 à 50%).
La société a déclaré que le modèle a surpassé Google Gemini 2.0 flash et chuchotement V3 sur plusieurs langues dans les tests de référence Flowers & Common Voice.

ElevenLabs avait développé le composant discours à texte pour sa plate-forme d’agent conversationnel AI, qui a été publiée en dernier. Cependant, c’est la première fois que la société publie un modèle de détection de parole autonome. Dans une conversation avec TechCrunch le mois dernier, le PDG Mati Staniszewski a parlé d’améliorer les modèles de détection de la parole.
«Nous voulons comprendre ce qui vous dit dans une meilleure conversation. Nous travaillons sur des moyens de nous éloigner de la génération de contenu et de compréhension et de transcription de la parole », a déclaré Staniszewski à ce moment-là. «Beaucoup de gens disent que le discours-texte est un problème résolu. Mais pour de nombreuses langues, c’est assez mauvais. Nous pensons que nous pouvons construire de meilleurs modèles de détection de parole parce que nous avons des équipes internes pour annoter les données et nous donner des commentaires rapides. «
Le modèle a également une diarisation intelligente du haut-parleur pour vous dire qui parle, l’horodatage au niveau des mots pour des sous-titres précis et des événements sonores de marquage comme des rire du public. La startup offre aux clients un moyen de transcrire directement le contenu vidéo pour ajouter des sous-titres ou des légendes dans son studio.
SCRIBER ne fonctionne actuellement qu’avec des formats audio préenregistrés. La société a déclaré qu’elle publierait bientôt une version en temps réel de faible latence du modèle. Cela signifie qu’il n’est pas efficace pour rencontrer des transcriptions ou des notes vocales.
ElevenLabs est un scribe de tarification à 0,40 $ pour une heure d’audio transcube. Bien que le espiègle soit compétent, certains de ses rivaux offraient actuellement un prix bas pour les transcriptions audio avec une certaine différenciation des fonctionnalités.