Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Cisco déploie des agents IA auprès de ses 90 000 employés

juillet 1, 2026

Dans les finances du président Trump : cadeaux de billets pour la Coupe du monde et plus d’un milliard de dollars de revenus cryptographiques

juillet 1, 2026

250 ans d’Amérique : Pourquoi la Constitution a été créée non pas pour célébrer le gouvernement de la majorité, mais pour restreindre le gouvernement

juillet 1, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les chatbots de l’IA ont du mal à travailler au-delà de l’anglais: “Ils en savent beaucoup … mais ils manquent la culture.”
Business

Les chatbots de l’IA ont du mal à travailler au-delà de l’anglais: « Ils en savent beaucoup … mais ils manquent la culture. »

JohnBy Johnjuillet 25, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email



Le premier chatbot IA au monde peut désormais générer tout en anglais, des e-mails aux documents de recherche. Cependant, lorsque vous passez à une autre langue, vos performances d’IA commencent à glisser.

Lors de la conférence Fortune Brainstorming AI Singapore mercredi, Kalika Bali, chercheuse en chef de Microsoft Research India, a déclaré: « Ils en savent beaucoup sur (le sujet), mais ils manquent la culture. C’est un regard d’un étranger à la culture du pays. »

Bali a souligné la question classique des mathématiques. « John et Mary ont une tarte à la chaux importante qui doit être divisée en cinq parties » – montrant le problème de l’utilisation de l’IA culturellement ignorante.

Un modèle d’IA commun convertit l’invite directement. Mais comme Bali l’a souligné, « Dans un pays comme l’Inde, la plupart des gens ne savent pas ce qu’est la tarte.

Plus de données sont nécessaires dans les langues locales pour développer des modèles qui comprennent mieux la culture locale. Cependant, la récupération de ces données n’est pas toujours simple.

Environ la moitié du contenu Web est en anglais. Cela signifie qu’il n’y a pas de pénurie de ressources numériques de haute qualité pour que LLM apprenne l’anglais. Pour d’autres langues qui ne jouissent pas de cette même abondance, les développeurs devraient étudier les différentes façons d’obtenir des données de formation.

Kasima Tharnpipichai, responsable de la stratégie de l’IA pour SCB 10X, a souligné la recherche fondamentale des locuteurs natifs nécessaires pour créer des ensembles de données de formation.

Tharnpipichai a mené le projet SCB 10x et a lancé Thai LLM Tiny. Pour construire des ensembles de données thaïlandais, Tharnpipichai a déclaré que les locuteurs natifs doivent passer au crible de grands ensembles de données ouverts à la main et ont décidé quelles sources de données thaïlandaises sont de haute qualité et non.

« Il n’y a pas de truc ici. Vous devez vraiment faire le travail », a-t-il déclaré. « C’est vraiment des efforts. C’est presque une force brute. »

Le SCB 10X a sorti un typhon il y a un an et demi. Tharnpipichai a déclaré que Typhoon avait pu dépasser le GPT-3,5 en Thaïlande.

Cependant, couper les données Web dans les non-anglais commence à soulever des préoccupations juridiques.

Khalil Nooh, co-fondateur et PDG de la startup malaisienne Mesolitica, qui développe Murray LLM, demande que la société supprime les sources des ensembles de données de formation disponibles en ligne car il s’agit d’un modèle open source, a indiqué la société.

Cela limite davantage le bassin déjà petit de données de haute qualité que les Malais ont. Pour résoudre ce problème, « le défi pour nous est de travailler avec les propriétaires d’ensembles de données privés », a déclaré Nooh.

Nooh et Bali explorent la génération de données synthétiques pour aider à créer des données de meilleure qualité dans la langue cible. La machine peut traduire une richesse de contenu anglais en ligne dans d’autres langues pour compléter un ensemble de données limité. Ceci est particulièrement utile pour les LLMS qui essaient de travailler dans des dialectes locaux qui ont autrement peu de présence numérique.

« La façon dont nous pouvons capturer les 16 dialectes malaisiens est par la synthèse (données) », a déclaré Nooh.

Cependant, il existe plusieurs obstacles à l’obtention de données qui ne peuvent pas être surmontées, ni «force brute» ni génération de machines. Dans de nombreuses communautés, les chercheurs doivent équilibrer la gestion de la sensibilité culturelle et gagner un point de vue global lors de la collecte de données dans une langue locale.

« Dans l’ensemble, l’Inde est très techniquement positive », a souligné Bali. Les communautés locales peuvent ne pas vouloir partager des informations sur un sujet particulier, même si elles sont largement connues parmi les populations locales.

Nooh a ajouté qu’en Malaisie, trois RSS « raciaux, religion, royauté » sont tous des sujets de sensibilité régionale.

Actuellement, il n’y a pas de réglementation concernant ce que les LLM peuvent « dire » en Malaisie, mais Nooh a déclaré que la méthodie « allait de l’avant pour préparer les composants nécessaires s’il avait besoin d’être mis en œuvre ».

Pour lutter contre la sensibilité culturelle de la Thaïlande, Tharnpipichai a expliqué de manière similaire que le SCB 10X avait publié un « modèle de sécurité » pour l’utilisation du secteur public, en plus du modèle de typhon habituel.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous Article« J’aime votre Premier ministre »: Trump loue les votes prioritaires lors de l’atterrissage en Écosse | Américain dernier | US NOUVELLES
Next Article Le PDG de Starbucks, Brian Nicole, est 6 666 fois plus d’employés que la chaîne de café médiane
John
  • Website

Related Posts

Cisco déploie des agents IA auprès de ses 90 000 employés

juillet 1, 2026

Dans les finances du président Trump : cadeaux de billets pour la Coupe du monde et plus d’un milliard de dollars de revenus cryptographiques

juillet 1, 2026

250 ans d’Amérique : Pourquoi la Constitution a été créée non pas pour célébrer le gouvernement de la majorité, mais pour restreindre le gouvernement

juillet 1, 2026

Goldman Sachs prévient que les paris sur les actions à effet de levier sont « fortement concentrés dans l’écosystème de l’IA »

juillet 1, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

How Koaloo.Fi Became the 2026 Small Business Champion in Fintech Innovation

juillet 1, 2026

PB Fintech étend sa présence à Dubaï et investit Rs 20 milliards dans le secteur des paiements

juin 30, 2026

SeedX lance des services de marketing fintech B2B spécialisés pour générer une croissance prévisible des revenus

juin 29, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Cisco déploie des agents IA auprès de ses 90 000 employés

juillet 1, 2026

Dans les finances du président Trump : cadeaux de billets pour la Coupe du monde et plus d’un milliard de dollars de revenus cryptographiques

juillet 1, 2026

250 ans d’Amérique : Pourquoi la Constitution a été créée non pas pour célébrer le gouvernement de la majorité, mais pour restreindre le gouvernement

juillet 1, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.