Mati Staniszewski, co-fondateur et PDG de la société audio d’IA ElevenLabs, estime que les modèles d’IA seront banalisés au fil du temps, un commentaire révélateur pour une entreprise qui se concentre aujourd’hui sur leur construction.
S’exprimant mardi sur scène lors de la conférence TechCrunch Disrupt 2025, le fondateur d’ElevenLabs discutait de ses visions à court et à long terme de l’espace audio de l’IA.
Staniszewski a déclaré que les chercheurs de son entreprise ont réussi à résoudre certains des problèmes d’architecture des modèles, et que cette concentration se poursuivra dans l’espace audio au cours des deux prochaines années.
« À long terme, cela se banalisera – au cours des deux prochaines années », a déclaré Staniszewski. « Même s’il y a des différences – ce qui, je pense, sera la vérité pour certaines voix, certaines langues – en elles-mêmes, les différences seront plus petites. »
Lorsqu’on lui a demandé pourquoi ElevenLabs se concentrerait sur la construction de modèles s’il pensait qu’ils seraient banalisés avec le temps, Staniszewski a expliqué qu’à court terme, ils constituaient toujours « le plus grand avantage et le plus grand changement que vous puissiez avoir aujourd’hui ».
Par exemple, si les voix ou les interactions de l’IA ne sonnent pas bien, c’est quand même un problème qui doit être résolu.
« La seule façon de résoudre ce problème est… de construire les modèles vous-même, et ensuite, à long terme, d’autres acteurs le résoudront également », a déclaré Staniszewski.
Il a également noté que ceux qui recherchent des cas d’utilisation fiables et évolutifs utiliseraient probablement des modèles différents pour différents cas d’utilisation.
Cependant, d’ici un an ou deux, Staniszewski a déclaré qu’un nombre croissant de modèles évolueront vers des approches multimodales ou fusionnées.
« Ainsi, vous créerez de l’audio et de la vidéo en même temps, ou de l’audio et des LLM en même temps dans un cadre conversationnel », a-t-il déclaré, citant le Veo 3 de Google comme exemple de ce qui peut être réalisé en combinant des modèles.
Le fondateur a déclaré qu’ElevenLabs envisage de lancer des partenariats avec d’autres sociétés et de travailler avec des technologies open source pour voir si la société peut combiner son expertise audio avec une partie de l’expertise d’autres modèles.
Pour ElevenLabs, l’objectif est de se concentrer à la fois sur la création de modèles et sur les applications afin de créer de la valeur à long terme, a-t-il déclaré.
« De la même manière que les logiciels et le matériel ont été la magie pour Apple, nous pensons que le produit et l’IA seront la magie pour la génération des meilleurs cas d’utilisation », a-t-il ajouté.

