Fuite : le système de censure IA en Chine

Fuite : le système de censure IA en Chine

Crédits image : Anton Petrus / Getty Images

Une plainte sur la pauvreté rurale, un reportage sur un fonctionnaire corrompu du Parti Communiste, ou une demande d’aide contre des extorsions policières—ce ne sont que quelques-uns des 133 000 exemples utilisés pour entraîner un puissant système d’IA conçu pour détecter automatiquement les contenus jugés sensibles par le gouvernement chinois.

Des données fuitées exposent l’expansion du système de censure piloté par IA de la Chine

Une base de données fuitée obtenue par TechCrunch révèle que la Chine a développé un système de censure piloté par IA qui renforce ses capacités de surveillance déjà étendues, allant bien au-delà des lignes rouges traditionnelles comme le massacre de la place Tiananmen.

Bien qu’il soit principalement destiné à contrôler le discours en ligne en Chine, ce système pourrait également être utilisé pour affiner davantage la censure dans les modèles d’IA chinois.

Cette photo, prise le 4 juin 2019, montre le drapeau chinois derrière des fils barbelés dans un complexe résidentiel à Yengisar, au sud de Kashgar, dans la région occidentale du Xinjiang en Chine.
Crédits image : Greg Baker / AFP / Getty Images

Un ensemble de données fuitées montre que la Chine utilise l’IA pour renforcer la répression, selon un expert.

Xiao Qiang, chercheur à l’UC Berkeley spécialisé dans la censure chinoise, a déclaré à TechCrunch que l’ensemble de données fuitées fournit des « preuves claires » que le gouvernement chinois ou ses affiliés cherchent à utiliser des modèles de langage de grande taille (LLM) pour renforcer la répression.

« Contrairement aux méthodes traditionnelles de censure, qui dépendent du travail humain pour le filtrage de mots-clés et la révision manuelle, un LLM entraîné sur de telles données améliorerait considérablement l’efficacité et la précision du contrôle de l’information dirigé par l’État », a expliqué Qiang.

Cela s’aligne avec les preuves croissantes que les régimes autoritaires adoptent rapidement des technologies avancées d’IA. En février, par exemple, OpenAI a rapporté que plusieurs entités chinoises avaient utilisé des LLM pour surveiller les publications antigouvernementales et discréditer les dissidents.

En réponse, l’ambassade de Chine à Washington, D.C., a déclaré à TechCrunch qu’elle s’opposait aux « attaques et calomnies infondées contre la Chine » et a souligné son engagement en faveur du développement éthique de l’IA.

Le chercheur en sécurité NetAskari a découvert l’ensemble de données et en a partagé un échantillon avec TechCrunch après l’avoir trouvé dans une base de données Elasticsearch non sécurisée hébergée sur un serveur Baidu.

Cela ne suggère aucune implication directe de la part des deux entreprises, car plusieurs organisations utilisent ces fournisseurs pour le stockage des données.

Le créateur exact de l’ensemble de données reste inconnu, mais les archives indiquent qu’il est récent, les dernières entrées datant de décembre 2024.

Un LLM non nommé est chargé de signaler les contenus politiquement, socialement ou militairement sensibles comme étant de « la plus haute priorité ».

La censure par IA cible la pollution, la fraude, les conflits du travail et la satire politique.

Les cibles principales incluent les scandales de pollution, la fraude financière, les conflits du travail et la satire politique, en particulier les analogies historiques sur les dirigeants actuels ou les mentions de « la politique de Taiwan ». Les rapports militaires sur les mouvements de troupes et les armements sont également étroitement surveillés.

Des extraits de l’ensemble de données font référence à des tokens de requête et à des LLM, confirmant la censure pilotée par l’IA.

Crédits image : Charles Roller

TechCrunch a analysé 10 échantillons parmi les 133 000 signalés pour censure.

Beaucoup abordent des sujets sensibles, tels que la corruption policière, la pauvreté rurale et un fonctionnaire du PCC expulsé pour ses croyances « superstitieuses » sur le marxisme.

Les sujets liés à Taiwan et à l’armée sont fortement surveillés, avec « Taiwan » apparaissant plus de 15 000 fois dans l’ensemble de données.

Même les dissidences subtiles sont signalées, comme un idiome sur la nature fugace du pouvoir—un thème particulièrement sensible dans le système autoritaire de la Chine.

L’ensemble de données ne fournit pas de détails sur ses créateurs, mais indique qu’il est destiné à « l’ouvrage sur l’opinion publique », un indicateur fort de son alignement avec les objectifs du gouvernement chinois, selon un expert interrogé par TechCrunch.

La CAC de Chine utilise l’IA pour renforcer la censure sous le terme de « travail sur l’opinion publique ».

Michael Caster, responsable du programme Asie au sein du groupe de défense des droits Article 19, a noté que le « travail sur l’opinion publique » relève de la Cyberspace Administration of China (CAC), qui supervise la censure et la propagande.

L’objectif ultime est de protéger les récits du gouvernement chinois en ligne tout en éliminant la dissidence. Le président Xi Jinping a même qualifié Internet de « ligne de front » du « travail sur l’opinion publique » du PCC.

L’analyse de l’ensemble de données par TechCrunch s’ajoute aux preuves croissantes que les régimes autoritaires exploitent l’IA pour la répression.

Le mois dernier, OpenAI a rapporté qu’une entité non identifiée, probablement basée en Chine, avait utilisé l’IA générative pour suivre les discussions sur les réseaux sociaux—en particulier celles soutenant les manifestations pour les droits de l’homme contre la Chine—et transmettre ces informations aux autorités.

OpenAI a également découvert que l’IA était utilisée pour générer des commentaires critiques à l’égard du dissident chinois Cai Xia.

La censure traditionnelle de la Chine repose sur des algorithmes de base qui bloquent des termes sur liste noire comme « massacre de Tiananmen » ou « Xi Jinping », comme de nombreux utilisateurs l’ont constaté lors des tests de DeepSeek.

Cependant, les LLMs peuvent améliorer la censure en détectant des critiques subtiles à grande échelle. Certains modèles d’IA peuvent même affiner leurs capacités à mesure qu’ils traitent davantage de données.

« Ce passage à la censure pilotée par l’IA rend le contrôle de l’État sur le discours public plus sophistiqué, en particulier à mesure que des modèles chinois comme DeepSeek gagnent en popularité », a déclaré Xiao, le chercheur de Berkeley, à TechCrunch.


Lire l’article original sur :  TechCrunch

Lire la suite :  ChatGPT Doubled Weekly Users in Under Six Months Due to Updates

Share this post

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *