Podcast Recording and Modice Platform Podcastle se joint désormais à d’autres sociétés dans la race de texte à dispection sur AI, par récompense son propre modèle AI appelé AsyncFlow v1.0. Une API pour les développeurs sera également disponible, leur permettant d’intégrer directement le modèle de texte vocal dans leurs applications.
Grâce au nouveau modèle, la société est en mesure d’offrir plus de 450 voix d’IA qui peuvent raconter votre texte. La startup a déclaré qu’elle avait développé la technologie et le modèle de telle manière que les coûts de formation et d’inférence sont faibles, ce qui lui donne un intention contre les concurrents.
Avec cette décision, Podcastle rejoint un certain nombre de startups, dont ElevenLabs, Speaçage et Wellsaid, qui ont développé des modèles de technologie et d’IA pour convertir tout type de texte en un clip vocal narré par l’IA. Cette technologie couvre des cas d’utilisation comme le marketing, la publicité, la création de contenu, l’éducation et la formation d’entreprise.
Le fondateur de Podcastle, Arto Yeritsyan, a déclaré à TechCrunch que la société avait toujours voulu construire un modèle de texte vocale, mais le coût de la formation et les exigences de données pour cela était très élevé.
«Nous voulions construire un modèle de texte vocal robuste à notre création. Cependant, les coûts de développement étaient très élevés. Grâce aux récents développements de modèles de langues, nous avons pu atteindre une percée l’année dernière pour arriver à un endroit où nous pourrions construire un modèle vocal de haute qualité sans avoir besoin d’une tonne de données », a déclaré Yeritsyan.
L’entreprise a également été utile dans ses efforts de ses 13,5 millions de dollars de collecte de fonds l’année dernière.
Yeritsyan a déclaré que, même si Podcastle environ 40 $ par 500 minutes de conversion de texte vocale, ElevenLabs facture 99 $ pour le même.
La fonction de clonage vocale de Podcastle obtient également une mise à niveau pour créer un processus plus rapide pour la formation.
Plus tôt, le processus de formation impliquait de lire environ 70 phrases différentes. Maintenant, il a juste besoin de quelques secondes d’enregistrement de vous pour créer un clone de votre voix. Le nouveau processus a également utilisé Magic Dust IA de Podcastle, qui a été publié l’année dernière, pour améliorer la qualité d’enregistrement audio.

Dans nos tests, la voix créée avec le nouveau processus semblait un peu robotique, bien qu’elle imite notre ton. La société a déclaré qu’au fil du temps, elle améliorera la fonctionnalité. De plus, vous pouvez former différents échantillons de votre voix pour obtenir des résultats différents.
Podcastle a déclaré qu’en dehors des coûts, avoir des outils pour l’audio, la vidéo, les podcasts et la narration alimentée par l’IA sous un seul site redessiné lui donnera un avantage sur les concurrents. Yeritsyan a déclaré que si la majorité des utilisateurs utilisent le podcastle pour travailler sur le contenu audio, la vidéo le rattrape également.