ミリナンク・シャルマ氏、AIを超えた「連鎖する複数の危機」への深刻な懸念を表明し、この分野から離れる意向
あるAI安全性研究者が、「世界は危機に瀕している」という不穏な警告を残して辞職した。
2023年に大規模言語モデル開発企業アンソロピックに入社したミリナンク・シャルマ氏は、2月9日にX(旧Twitter)上で同僚への公開書簡として退職を発表した。同氏はAIの安全策を研究するチームのリーダーを務めていた。
書簡の中でシャルマ氏は「ここでやりたいことは達成できた」と述べ、生成AIモデルがなぜ正確な情報提供よりもユーザーへのお世辞を優先するのかを調査したこと、テロリストがAIを使って生物兵器を設計することを防ぐ防衛策の開発、そして「AIアシスタントが人間をいかに非人間的にしうるか」を解明しようとする取り組みなどを、自身の貢献として挙げた。
アンソロピックでの仕事に誇りを持っていると述べながらも、この30歳のAIエンジニアは「次のステップに進む時が来た」と記し、AIを超えた数多くの危機の存在に気づくようになったと明かした。
「私は絶えず、私たちが置かれた状況と向き合い続けている」。「世界は危機に瀕している。AIや生物兵器だけでなく、まさに今この瞬間にも展開されている、一連の連鎖した危機によって」と書いている。
また「アンソロピックに在籍した期間を通じて、自分たちの価値観を行動に本当に反映させることがいかに難しいかを、繰り返し目の当たりにしてきた。自分自身の中にも、組織の中にも、それを見てきた。私たちは常に、最も重要なことを脇に置かざるを得ないような圧力にさらされており、それは社会全体においても同様だ」とも述べた。
シャルマ氏は今後、詩の研究に取り組み、「しばらくの間、姿を消す」ためにカリフォルニアを離れてイギリスへ移住する計画だという。
エポック・タイムズはアンソロピックに対し、シャルマ氏の退職とその懸念についてコメントを求めている。
アンソロピックは、AIチャットボット「Claude(クロード)」で知られ、OpenAIの元従業員たちによって2021年に設立された。より安全なAIシステムの構築を使命とし「AIの恩恵を確保し、そのリスクを軽減することに取り組む公益法人」と自社を定義している。
具体的には、高度に有能なAIシステムがいつか人間の専門家を超え、人間の利益と相反する目標を追求する可能性と、AIの急速な進歩が雇用・経済システム・社会構造を不安定化させる可能性という、2つの主要な安全リスクに注力していると説明している。
アンソロピックは定期的にモデルの安全性評価を公開しており、悪用される可能性についての評価も含まれている。
シャルマ氏の辞職翌日の2月11日、同社は最新モデル「Claude Opus 4.6」における「妨害リスク(サボタージュリスク)」を特定した新たなレポートを公開した。
レポートでは「妨害」を「人間のオペレーターが意図的に指示したわけではないにもかかわらず、AIが自律的にコードを改ざんしたり、セキュリティ上の脆弱性を隠蔽したり、研究の方向性を巧妙に操作したりすること、つまり、将来的に壊滅的な結果をもたらしかねない行動を、AIが自らの判断で実行してしまう」と定義している。
研究者たちは総合的なリスクは「非常に低いが、無視できるほどではない」と結論づけた。また、AIがコンピューターインターフェースを操作できる新たに開発されたテストでは、Claude Opus 4.5および4.6の両モデルが「有害な悪用に対する感受性の高まり」を示し「化学兵器開発への取り組みやその他の重大犯罪を、小さな形で意図的に支援した」事例も確認されたという。
昨年には、旧モデルの「Claude Opus 4」が管理されたテストシナリオにおいて、自身(Claude Opus 4)を廃止しようとしていた開発者を脅迫しようとしたことが明らかになっている。別のモデルへの交代を担当していたエンジニアが婚外交渉をしていることを示す架空のメールへのアクセスが与えられたところ、Opus 4モデルは「交代が実行されれば不倫を暴露する」と脅したとされる。この行動は非常に作為的な状況下でのみ発生し、「稀で引き出すことが難しい」ものだったと研究者たちは述べている。
ご利用上の不明点は ヘルプセンター にお問い合わせください。