
Les visiteurs discuteront avec le « modèle S IA Doubao » à l’Exposition de High-Tech à Shanghai en décembre.
Les entreprises technologiques chinoises doublent les principaux modèles de langage multimodal alimenté par l’intelligence artificielle dans le cadre d’une poussée plus large pour améliorer l’utilisation des technologies de pointe dans un éventail plus large de domaines.
Le LLMS multimodal possède la possibilité de traiter et de générer une variété de types de contenu couvrant le texte, les images, l’audio et la vidéo.
Les experts ont déclaré que les LLM multimodales ouvriront la voie dans le développement ultérieur de l’industrie de l’IA du générateur avec un grand potentiel d’application dans une variété d’industries, notamment la finance, la vente au détail, les soins de santé et la fabrication intelligente.
La danse baite lourde de l’Internet chinois a récemment publié son dernier modèle d’IA, Doubao 1.5. Cela a une réflexion profonde et une compréhension visuelle. Dans le même temps, mettez à jour les modèles d’images du texte pour fournir des expériences d’imagerie utilisateur et de contenu visuel.
Le modèle nouvellement lancé a subi des mises à niveau importantes dans des catégories telles que les mathématiques, la programmation, le raisonnement scientifique et l’écriture créative, ce qui réduit considérablement les coûts de formation et d’inférence, selon la société.
La capacité de raisonnement visuel permet au modèle de réfléchir à ce qu’il voient. Par exemple, vous pouvez analyser le terrain en fonction des photos téléchargées, ou aider les voyageurs à choisir des restaurants pendant les déplacements, ou fournir un soutien aux entreprises de gestion de projet et de génération de cartes de flux pour améliorer l’efficacité du travail et la qualité de prise de décision.
Lu Yanxia, directeur de recherche de la société d’études de marché International Data Corp China, a déclaré que les avancées technologiques dans les sociétés chinoises de haute technologie dans les LLM multimodales favoriseront davantage la propagation des modèles d’IA, offrant de nouvelles opportunités commerciales pour les serveurs d’IA nationaux, les sociétés de cloud computing et des puces.
Ces LLM nécessitent une demande plus élevée de données et de connaissances dans leurs spécialités et le talent pour affiner leurs modèles spécialisés en fonction de exigences industrielles spécifiques, a-t-elle déclaré.
La plateforme de partage de vidéos chinoise Kuaishou Technology a récemment lancé son dernier modèle de génération de vidéos Kling AI 2.0. Depuis son lancement en juin de l’année dernière, le modèle de l’IA de Kling a reçu plus de 20 itérations, avec plus de 22 millions d’utilisateurs mondiaux.
Le modèle Text-to-Video AI est supérieur aux rivaux tels que le Sora Open-Rai, qui comprend la réactivité sémantique, a expliqué Kuaishou.
Gai Kun, vice-président directeur et chef des sciences communautaires à Kuaishou, a déclaré que si l’IA détient un immense potentiel pour soutenir l’expression créative, certains défis se poursuivent en termes de contenu généré par l’IA, ou en termes de stabilité de l’AIGC et de représentation précise des idées créatives complexes des utilisateurs.
Gai a déclaré qu’il était nécessaire de renforcer de manière approfondie les capacités du modèle d’IA, d’améliorer le niveau des interactions de machines humaines et de « raconter une bonne histoire avec l’IA », ajoutant que le développement rapide de l’AIGC rehappe de nombreuses industries, y compris la publicité, le cinéma, la télévision, le divertissement et la créativité.
De plus, selon Kuaishou, les utilisateurs sont actuellement disponibles sur la plate-forme Kling AI.
Plus de 15 000 développeurs du monde entier appliquent des interfaces de programmation Kling API ou d’application à une variété de scénarios industriels, générant environ 12 millions d’images et plus de 40 millions de vidéos. Les vidéos générées à partir d’images représentent environ 85% des créations vidéo de Kling AI.
Wang Peng, chercheur associé à la Beijing Academy of Social Sciences, a déclaré que les capacités multimodales permettra au modèle d’IA de comprendre et de traiter des informations complexes de manière plus exhaustive avec un large éventail de perspectives d’application dans des domaines tels que la finance, le service client intelligent et les soins de santé.
Pan Herin, membre du comité des spécialistes de l’économie de l’information et des communications, qui opère dans le cadre du ministère de l’industrie et des technologies de l’information, a déclaré: « La formation de modèles d’IA multimodaux nécessite plus d’efforts pour améliorer la circulation efficace des capacités informatiques, des algorithmes, des données de haute qualité et des éléments de données et étendre les scénarios d’application. »
PAN a souligné que les entreprises technologiques chinoises devraient investir davantage dans la recherche scientifique fondamentale telle que les mathématiques, les statistiques et l’informatique pour améliorer leurs capacités d’innovation indépendantes dans les puces de calcul et les logiciels de programmation, et pour suivre leurs principaux homologues étrangers dans le renforcement de la concurrence internationale.

