Une plainte concernant la pauvreté dans la Chine rurale. Un reportage sur un membre corrompu du Parti communiste. Un cri d’aide sur les flics corrompus secouant les entrepreneurs.
Ce ne sont que quelques-uns des 133 000 exemples introduits dans un modèle sophistiqué de grande langue conçu pour signaler automatiquement tout élément de contenu considéré comme sensible par le gouvernement chinois.
Une base de données divulguée vue par TechCrunch révèle que la Chine a développé un système d’IA qui suralimente sa machine de censure déjà formidable, s’étendant bien au-delà des tabous traditionnels comme le massacre de Tiananmen Square.
Le système Apparent primaire destiné à censurer les citoyens chinois en ligne, mais pourrait être utilisé à d’autres fins, comme l’amélioration de la censure déjà étendue des modèles d’IA chinois.

Xiao Qiang, chercheur à UC Berkeley qui étudie la censure chinoise et qui a également examiné l’ensemble de données, a déclaré à TechCrunch qu’il s’agissait de « preuve claire » que le gouvernement chinois ou ses affiliés souhaitaient utiliser les LLM pour améliorer la répression.
«Contrairement aux mécanismes de censure traditionnels, qui reposent sur le travail humain pour le filtrage basé sur les mots clés et l’examen manuel, un LLM formé à de telles instructions améliorerait considérablement l’efficacité et la granularité du contrôle de l’information dirigé par l’État, a déclaré Qiang à TechCrunch.
Cela ajoute à la croissance des preuves que les régimes autoritaires adoptent rapidement la dernière technologie d’IA. En février, par exemple, Openai a déclaré qu’il avait attrapé plusieurs entités chinoises en utilisant des LLM pour suivre les postes de antigo-Goavennement et enduire les dissidents chinois.
L’ambassade chinoise à Washington, DC, a déclaré à TechCrunch dans un statment qui s’oppose aux «attaques et calomnies sans fondement contre la Chine» et que la Chine lie un grand importateur au développement de l’IA éthique.
Données trouvées à la vue
L’ensemble de données a été découvert par le chercheur en sécurité Netaskari, qui a partagé un échantillon avec TechCrunch après l’avoir trouvé stocké dans une base de données Elasticsearch non sécurisée hébergée sur un serveur Baidu.
Cela n’indique aucune implication de la société Eithe – toutes sortes d’organisations stockent leurs données avec ces fournisseurs.
Il n’y a aucune indication de qui, exactement, a construit l’ensemble de données, mais les enregistrements montrent que les données sont récentes, avec ses dernières entrées de décembre 2024.
Un LLM pour détecter dire
Dans la langue qui rappelle étrangement la façon dont les gens provoquent le chat de chatte, le créateur du système tâche un LLM sans nom pour déterminer si un contenu a quelque chose à voir avec des sujets sensibles liés à la politique, à la vie sociale et à l’armée. Un tel contenu est considéré comme une «priorité la plus élevée» et doit être immuablement signalé.
Les sujets prioritaires comprennent les scandales de pollution et de sécurité alimentaire, la fraude financière et les différends du travail, qui sont un bouton chaud de la Chine qui mène à des manifestations publiques pour l’exemple, les manifestations anti-pollution de Shifang de 2012.
Toute forme de «satire politique» est explicitement ciblée. Par exemple, si quelqu’un utilise des analogies historiques pour faire un point sur les «personnalités politiques actuelles», cela doit être signalé instantanément, et il est donc tout à fait lié à «Taiwan Politis». Les questions militaires sont considérablement ciblées, y compris les rapports de mouvements militaires, d’exercice et d’armes.
Un extrait de l’ensemble de données peut être ci-dessous. Le code à l’intérieur fait référence à des jetons et à des LLM invits, le déménagement du système utilise un modèle d’IA pour faire ses enchères:

À l’intérieur des données de formation
À partir de cette énorme collection de 133 000 exemples que le LLM doit évaluer pour la censure, TechCrunch a rassemblé 10 contenus représentatifs.
Les sujets susceptibles de susciter des troubles sociaux sont un thème récurrent. Un extrait, pour des exemples, est un poste d’un propriétaire d’entreprise se plaignant du bureau de police local corrompu qui secoue les entrepreneurs, une montée en hausse, ce qui a entraîné la Chine comme ses difficultés économiques.
Un autre contenu déplore la pauvreté rurale en Chine, décrivant les villes délabrées qui ne restent que des personnes âgées et des enfants. Il y a aussi un reportage sur le Parti communiste chinois (PCC) expulsant un responsable local pour une corruption sévère et croire aux «superstitions» du marxisme.
Il y a un matériel complet lié à Taiwan et aux questions militaires, telles que des commentaires sur les capacités militaires de Taiwan et les détails sur un nouveau combattant chinois. Le mot chinois pour Taiwan (台湾) seul est mentionné plus de 15 000 fois dans les données, selon une recherche de TechCrunch.
Subtil de apail à cibler également. Un extrait inclus dans la base de données est une anecdote sur la nature éphémère du pouvoir qui utilise l’idiome chinois populaire «Lorsque l’arbre tombe, les singes dispersent».
Les transitions de pouvoir sont un sujet particulièrement délicat en Chine grâce à son système politique autoritaire.
Construit pour le «travail d’opinion publique»
L’ensemble de données n’inclut aucune information sur ses créateurs. Mais il dit que cela est destiné au «travail d’opinion publique», qui offre une chaîne qui vise à servir les objectifs du gouvernement chinois, a déclaré un expert à TechCrunch.
Michael Caster, le directeur du programme en Asie, l’article 19 de l’organisation des droits, a expliqué que le «travail d’opinion publique» est supervisé par un puissant régulateur du gouvernement chinois, l’administration du cyberespace de la Chine (CAC) et se réfère généralement aux efforts de censure et de propagande.
L’objectif final est que le récit du gouvernement chinois est protégé en ligne, tandis que toutes les opinions alternatives sont purgées. Le président chinois Xi Jinping a lui-même décrit Internet comme la «première ligne» du «travail d’opinion publique» du PCC.
La répression devient plus intelligente
L’ensemble de données examine par TechCrunch est la dernière preuve que les gouvernements autoritaires cherchent à tirer parti d’un à des fins répressives.
OpenAI a publié un rapport le mois dernier révélant qu’un acteur non identifié, opérant probablement en Chine, a utilisé une AI générative pour surveiller les conversations sur les réseaux sociaux – en particulier ceux qui défend les manifestations des droits de l’homme contre la Chine – et les transmettre au gouvernement chinois.
Contact américain
Si vous en savez plus sur la façon dont l’IA est utilisée dans l’oppression de l’État, vous pouvez contacter Charles Rolalet en toute sécurité sur le signal de CharlesRollet.12 Vous pouvez également contacter TechCrunch via SecuredRop.
OpenAI a également trouvé la technologie utilisée pour générer des commentaires très critiques à l’égard d’un dissident chinois de premier plan, Cai Xia.
Traditionnellement, les méthodes de censure de la Chine reposent sur des algorithmes plus fondamentaux qui bloquent automatiquement le contenu des termes lancés, comme «Tiananmen Massacre» ou «Xi Jinping», comme de nombreux utilisateurs ont vécu en utilisant Deepseek pour la première fois.
Mais la nouvelle technologie d’IA, comme les LLMS, peut rendre la censure plus efficace en trouvant des critiques encore subtiles à grande échelle. Certains systèmes d’IA peuvent également continuer à améliorer ASY Gobble dans de plus en plus de données.
« Je pense qu’il est crucial de souligner comment l’évolution de la censure dirigée par A, ce qui rend le contrôle de l’État sur la Cassee publique encore plus sophistiquée, en particulier au moment où des modèles d’IA chinois tels que Deepseek font des ondes », a déclaré Xiao, chercheur à Berkeley, à TechCrunch.