中共官製メディアの大量コンテンツが、世界の主要AIモデルの学習データに取り込まれている可能性があるとする研究が発表された(shutterstock)

AIが中共の語り口を学習か　官製メディア大量データの影響指摘

2026/05/21 更新: 2026/05/21

学術誌「ネイチャー」に掲載された研究報告書によると、中国共産党（中共）官製メディアの大量のコンテンツが、世界の主要AIモデルの学習データに取り込まれていることが明らかになった。中国の政治的に敏感なテーマについて、複数の主要モデルは中国語で回答する際、中共当局の公式見解に沿った表現になりやすいという。ネット業界の関係者は、当局がLinkedInなどのプラットフォームを通じて、アメリカなど西側諸国のAIエンジニアを高額報酬で勧誘し、AI分野での巻き返しを狙っていると明かした。

アメリカの研究者らは、中共の宣伝機関がAIを通じて、新たな情報拡散ルートに入り込んでいることを懸念している。最近、「ネイチャー」に掲載された最新の研究報告書によると、新華社や「人民日報」など中共官製メディアが発信した大量のコンテンツが、AIの学習用データとして広く収集され、世界の主要な大規模言語モデルのデータ源に組み込まれている。

中国の政治的に敏感なテーマについて、ChatGPT、Claude、Geminiを含む複数のモデルは、中国語で回答する際、中共当局の公式見解に近い表現が出やすい。一方、英語での回答では異なる傾向が見られたという。

研究チームは、この現象はハッキングや技術的侵入によるものではなく、学習データの構造そのものに由来していると指摘している。新華社や人民網などのメディアは、長期にわたってコンテンツを無料で公開し、大量に転載し、統一された形式で公式内容を発信し続けてきた。一方、多くの独立系メディアには著作権上の制限や有料記事、クローリング防止の仕組みがある。AIのデータ収集では、こうした差が官製メディア側のデータ量の優位につながる可能性がある。

AI研究者の張子昂氏は大紀元の取材に対し、これまで中共の宣伝は主にテレビ、新聞、検索エンジン、SNSの検閲に依存してきたが、AI時代には新たな状況が生まれていると述べた。

「宣伝機関は、必ずしもモデル企業に直接介入する必要も、技術的に侵入する必要もない。継続的かつ大規模にコンテンツを発信していれば、学習データを通じて世界のAIモデルに組み込まれる」

張氏は、人民網などの中共官製メディアが、長期にわたって統一した政治的表現を発信し続け、それを転載ネットワーク、ポータルサイト、検索システムを通じて拡散してきたと指摘する。

同氏は「本当に警戒すべきなのは、数本の宣伝記事がモデルに取り込まれることではない。モデルが特定の語り口や説明の枠組みを学習し始めることだ。ユーザーが繰り返し同じ説明を受け取るうちに、それがやがて標準的な見方として受け止められかねない。この影響は、従来の宣伝よりもはるかに見えにくい」と述べた。

中共のプロパガンダ　AI学習データに浸透

アメリカの複数の大学の研究者で構成されるチームは、査読付き研究として初めて、中共官製メディアがAIの学習データに入り込む経路を追跡した。研究対象には、新華社、「人民日報」、「学習強国」などの公式プラットフォームが含まれている。

研究チームがオープンソースの中国語データセット「CulturaX」を分析したところ、このデータベースには約1億8900万件の中国語文書が含まれており、中共官製メディアのコンテンツ量は中国語版ウィキペディアの41倍に達していた。また、「党大会」「中央委員会」などの政治用語に関する文書では、公式コンテンツが4分の1を占めていた。

その後、研究者らがChatGPT、Claude、Gemini、DeepSeekなどの主要モデルをテストしたところ、中国の政治問題に関する回答では、中国語と英語の間に明確な違いが見られた。一部のモデルは中国語で質問した場合、近年、習近平が用いている政治的言説を自然に引き継ぎ、比較的肯定的な説明を示した。一方、英語での回答はより慎重な表現となり、DeepSeekは中国語と英語のいずれでも、ほぼ同じ傾向を示したという。

研究に参加した米カリフォルニア大学サンディエゴ校の中国データ・ラボ共同所長、モリー・ロバーツ氏は、「権威主義体制は今やAIを通じて、国境を越えて世界の情報消費を形づくることができる」と述べた。

中国AI企業　アメリカの技術者を高額報酬で勧誘か

広東省のネットワーク技術エンジニア、馮琪さん（仮名）は記者に対し、「報道が指摘するように、中共の宣伝がAIに収集されているのは事実だ」と語った。

「Claudeを使っていて、中国に関する部分では、当局の発表や官製メディアで使うような表現が頻繁に現れると感じた。たとえば、失業を『柔軟就業』と言い換えたり、『都市部調査失業率』『指導幹部』『党員幹部』といった表現を使ったりする。こうした語彙を海外のモデルで使うのは不自然だ。ChatGPTにも同じ問題がある」

馮さんはまた、中共当局が米シリコンバレーのエンジニアの引き抜きを進めていると明かした。

「広東、浙江、北京のAI企業はいずれもLinkedInで人材を探している。特に、米シリコンバレーのトップAI企業で働く人材や、大手AI企業のエンジニアを最も歓迎する。最新技術を持っていれば、数十万元から1千万元規模の報奨金を得られる。中国国内では今、半導体以上にAI開発人材への需要が高まっている」

研究は、こうした影響が技術的侵入を伴わずに生じ得る点を指摘している。官製メディアの情報は無料公開や転載を通じて広がりやすい一方、独立系メディアの多くは著作権やペイウォールの制限を受けるため、AIの学習データに取り込まれにくいという。

メディア研究者の張誠さんは記者に対し、「ユーザーが目にするのはAIが出した答えだが、その背後で誰が長期的にコンテンツを供給してきたのかは分からない」と述べた。研究対象を37か国に拡大したところ、報道の自由度が低い国ほど、その言語環境におけるAIの出力は政権側の語り口に近づきやすいことも分かった。