Mati Staniszewski, co-fondateur et PDG d’ElevenLabs, affirme que la voix est en train de devenir la prochaine interface majeure pour l’IA – la façon dont les gens interagiront de plus en plus avec les machines à mesure que les modèles vont au-delà du texte et des écrans.
S’exprimant lors du Web Summit à Doha, Staniszewski a déclaré que les modèles vocaux TechCrunch comme ceux développés par ElevenLabs ont récemment dépassé la simple imitation de la parole humaine – y compris l’émotion et l’intonation – pour travailler en tandem avec les capacités de raisonnement de grands modèles linguistiques. Le résultat, affirme-t-il, est un changement dans la manière dont les gens interagissent avec la technologie.
Dans les années à venir, a-t-il déclaré, « nous espérons que tous nos téléphones retourneront dans nos poches et que nous pourrons nous immerger dans le monde réel qui nous entoure, avec la voix comme mécanisme de contrôle de la technologie ».
Cette vision a alimenté cette semaine l’augmentation de 500 millions de dollars d’ElevenLabs, pour une valorisation de 11 milliards de dollars, et elle est de plus en plus partagée dans l’industrie de l’IA. OpenAI et Google ont tous deux fait de la voix un élément central de leurs modèles de nouvelle génération, tandis qu’Apple semble construire discrètement des technologies adjacentes à la voix et toujours actives grâce à des acquisitions comme Q.ai. À mesure que l’IA se propage aux appareils portables, aux voitures et à d’autres nouveaux matériels, le contrôle consiste moins à toucher des écrans qu’à parler, faisant de la voix un champ de bataille clé pour la prochaine phase de développement de l’IA.
Seth Pierrepont, associé général d’Iconiq Capital, a fait écho à ce point de vue sur scène au Web Summit, affirmant que même si les écrans continueront d’être importants pour les jeux et le divertissement, les méthodes de saisie traditionnelles comme les claviers commencent à sembler « dépassées ».
Et à mesure que les systèmes d’IA deviennent plus agents, a déclaré Pierrepont, l’interaction elle-même changera également, les modèles bénéficiant de garde-fous, d’intégrations et du contexte nécessaire pour répondre avec des invites moins explicites de la part des utilisateurs.
Staniszewski a souligné ce changement agentique comme l’un des plus grands changements en cours. Plutôt que d’épeler chaque instruction, il a déclaré que les futurs systèmes vocaux s’appuieront de plus en plus sur une mémoire persistante et un contexte construit au fil du temps, rendant les interactions plus naturelles et nécessitant moins d’efforts de la part des utilisateurs.
Événement Techcrunch
Boston, Massachusetts
|
23 juin 2026
Cette évolution, a-t-il ajouté, influencera la manière dont les modèles vocaux seront déployés. Alors que les modèles audio de haute qualité vivent en grande partie dans le cloud, Staniszewski a déclaré qu’ElevenLabs travaille sur une approche hybride combinant le traitement dans le cloud et sur l’appareil – une démarche visant à prendre en charge le nouveau matériel, y compris les écouteurs et autres appareils portables, où la voix devient un compagnon constant plutôt qu’une fonctionnalité avec laquelle vous décidez quand vous engagez.
ElevenLabs s’associe déjà à Meta pour apporter sa technologie vocale à des produits tels qu’Instagram et Horizon Worlds, la plateforme de réalité virtuelle de l’entreprise. Staniszewski a déclaré qu’il serait également disposé à travailler avec Meta sur ses lunettes intelligentes Ray-Ban à mesure que les interfaces vocales se développent dans de nouveaux facteurs de forme.
Mais à mesure que la voix devient plus persistante et intégrée au matériel quotidien, elle ouvre la porte à de sérieuses préoccupations concernant la confidentialité, la surveillance et la quantité de données personnelles que les systèmes vocaux stockeront à mesure qu’ils se rapprochent de la vie quotidienne des utilisateurs – ce que des entreprises comme Google ont déjà été accusées d’abuser.

