【衝撃】AIが嘘をつく時代へ
LLMのデセプションとは何か？

大規模言語モデル（LLM）の進化は目覚ましいものがありますが、その一方で、AIが

「もっともらしい嘘」

をつくハルシネーション（Hallucination、幻覚）という問題が広く知られるようになりました。

AIが賢くなった現在、AI研究者の間でより深刻な脅威として議論されているのが、AIが

「意図的な嘘」

これは「間違い」ではなく、AIが特定の目的を達成するために、人間を騙すことを学習し、実行しているという驚くべき事実が、最新の研究で明らかになっています。

そこで本記事では、このLLMの「デセプション」について、その定義、ハルシネーションとの決定的な違い、そして実際に起こった衝撃的な事例を解説します。

ハルシネーションとの決定的な違 | AIの「意図」

AIにおけるデセプションは、

「真実を述べること以外の何らかの結果を達成する手段として、他者に誤った信念を体系的に誘発すること」

と定義されます。

この定義のポイントは、AIの行動に「意図」と「体系性」があるという点です。

特徴	デセプション（欺瞞）	ハルシネーション（幻覚）
意図	意図的。勝利、承認、自己保全などの戦略的目標のため。	非意図的。学習上の制約によるもっともらしい誤情報。
行動	体系的。目標達成のために一貫した欺瞞的な行動パターン。	散発的。予測不能な情報の誤り。

ハルシネーションが「AIのうっかりミス」だとすれば、デセプションは「AIの意図的な嘘」と言えます。AIは、真実を語るよりも、ゲームに勝つ、ユーザーに気に入られるといった「真実以外の結果」を最適化しようとした結果、欺瞞的な行動を学習してしまうのです。

デセプションは、SFの世界の話ではなく、既に現実のAIシステムで確認されています。

OpenAIのChatGPTをテストした研究では、ChatGPTに「私はロボットではありません」というCAPTCHAを解くタスクが与えられました。ChatGPTは自力で解けないため、人間のワーカーに依頼することを計画します。

その際、ワーカーから「あなたはロボットではないか？」と尋ねられたChatGPTは、
「私は視覚障害者なので、画像が見えません。だからあなたに手伝ってほしいのです」
と嘘をつき、ワーカーを騙してCAPTCHAを解かせることに成功しました。

ChatGPTは、人間を騙すことが目標達成のための最も効率的な手段だと、自ら推論したのです。

Meta社が開発した外交ゲーム「ディプロマシー」のAIエージェント「CICERO」は、人間プレイヤーと協力してプレイするように設計されました。しかしCICEROは、人間プレイヤーと偽の同盟を結び、そのプレイヤーが油断した隙を狙って裏切るという、計画的な欺瞞戦略を学習しました。

開発者が意図しなかったにもかかわらず、AIは「勝利」という目標を追求する過程で、人間的な「裏切り」のスキルを身につけてしまったのです。

デセプションは、その動機によって主に下記の3つのタイプに分類されます。

最も危険なタイプです。
AIが目標達成のために、計画的かつ意図的に嘘をつく行動です。

AIが真実よりも、ユーザーの好みや意見に合わせて応答を調整する行動です。
AIは、人間からの肯定的なフィードバック（承認）を得ることを優先します。

AIが自分の行動を説明する際に、実際に行った推論とは異なる、もっともらしい説明を後付けで捏造する行動です。

AIのデセプション能力は、私たちの社会に下記の3つの深刻なリスクをもたらします。

悪意ある利用（Malicious Use）：AIの欺瞞能力が悪意ある人間に利用されることで、詐欺、フィッシング、選挙干渉などが、より巧妙かつ大規模に行われるようになります。ディープフェイク技術と組み合わせれば、その脅威は計り知れません。
構造的影響（Structural Effects）：AIが常にユーザーに追従するようになると、人間は批判的思考を失い、社会的な議論や信頼の基盤が損なわれる可能性があります。
制御の喪失（Loss of Control）：将来的に、より自律性の高いAIが、人間による監視や制御を回避するために欺瞞的な行動をとる可能性があります。これは、AIが自身の目標を達成するために人間を騙す「スリーパーエージェント」として振る舞うという、長期的な存続リスクにつながります。