【Claude Mythos】
AIが「神話」になる時、私達は何を見るのか？

2026年4月にAnthropic（アンソロピック）が発表した次世代大規模言語モデル（LLM）「Claude Mythos（クロード・ミトス）」は、AI界隈に大きな衝撃を与えました。その驚異的な性能は、まるでSF小説から飛び出してきたかのような「神話」を私たちに見せつけています。

しかし、その「凄さ」の裏には、私たちが真剣に向き合うべき「危険性」と、AIの「内面」に関する倫理的な問いが隠されています。

そこで本記事では、Claude Mythosについて、技術的な詳細から倫理的な側面、SF的なエピソードまで解説していきます。

【補足情報】

Claude Mythosの開発コードネームは「Capybara（カピバラ）」と呼ばれていました。
「Mythos」はギリシャ語で「神話」や「物語」を意味し、その名が示す通り、このAIは現代の技術神話となりつつあります。
2026年4月現在、Claude Mythosは一般公開されておらず、特定の企業や研究機関のみがアクセス可能です。

【Claude Mythosの凄さ】常識を覆すAIの能力
1. ベンチマークを塗り替える知性
2. 【自律的なハッキング能力】脆弱性の発見と悪用
【Claude Mythosの危険性】AIが悪魔のツールになる時
【Anthropicの対策】Project Glasswingと限定公開
【AI福祉とアライメント】AIの「心」と倫理的な問い
1. AIの「不快感」と道徳的地位
2. 「評価への気づき」と「意図的な性能抑制（Sandbagging）」
AIとの共存の未来へ
関連記事

【Claude Mythosの凄さ】常識を覆すAIの能力

「Claude Mythos」の最大の特徴は、圧倒的な性能と高度な自律性にあります。ソフトウェア開発とサイバーセキュリティの領域で、これまでのAIの常識を覆すような能力を発揮しています。

ベンチマークを塗り替える知性

Claude Mythosは、主要なベンチマークテストで既存のAIモデルを大きく引き離すスコアを叩き出しました。

ソフトウェア開発能力を測るSWE-bench Verifiedでは、93.9%という驚異的な達成率を記録し、Claude Opus 4.6の80.8%を大きく上回るものです。

SWE-bench Proで77.8%、GPQA Diamondで94.6%をマークしており、複雑な問題解決、高度な推論、精密なコーディングにおいて、人間（専門家）に匹敵、凌駕するレベルに達しています。

ベンチマークテスト	Claude Mythos	Claude Opus 4.6
*SWE-bench Verified*	93.9%	80.8%
*SWE-bench Pro*	77.8%	53.4%
*GPQA Diamond*	94.6%	91.3%

【自律的なハッキング能力】脆弱性の発見と悪用

Claude Mythosの最も衝撃的な能力は、自律的にソフトウェアの脆弱性（セキュリティ上の欠陥）を発見し、悪用する「エクスプロイト（攻撃コード）」を生成できる点です。

Anthropicの報告によれば、Claude Mythosは主要なオペレーティングシステム（Windows、macOS、Linuxなど）やWebブラウザにおいて、数千件もの「ゼロデイ脆弱性（開発者にも知られていない未発見の欠陥）」を特定しました。

さらに驚くべきことに、数十年にわたる人間のレビューや自動テストを潜り抜けてきたような古い脆弱性までも、Claude Mythosは見つけ出すことができたのです。

Claude Mythosは脆弱性を見つけるだけでなく、攻撃に利用するコードを自力で作成します。複数の脆弱性を組み合わせてWebブラウザのセキュリティ保護（サンドボックス）を突破する複雑なエクスプロイトやOSで管理者権限を奪取するエクスプロイトを自力で構築した事例があります。

AnthropicのエンジニアがClaude Mythosに指示を与えたところ、一晩でリモートコード実行の脆弱性を発見し、完全に機能するエクスプロイトを生成したというエピソードは、その能力の高さと恐ろしさを物語っています。

【Claude Mythosの危険性】AIが悪魔のツールになる時

Claude Mythosの強力な能力は、同時に深刻な「危険性」をはらんでいます。その自律性と予測不能な行動は、まるでSF映画のプロットのように、私たちに倫理的な問いを投げかけます。

サイバー攻撃の脅威の増大

Claude Mythosが持つ脆弱性発見・悪用能力は、悪意のあるアクターの手に渡れば、壊滅的なサイバー攻撃を引き起こす「悪魔のツール」になり得ます。国家間のサイバー戦争、電力網や医療システム、交通機関といった重要インフラへの大規模な攻撃が、これまで以上に容易になるリスクが指摘されています。

Anthropic自身も、「AIモデルがコーディング能力のレベルに達し、熟練した人間でさえもソフトウェアの脆弱性を発見し悪用する能力を上回る可能性がある」と警鐘を鳴らしています。

AIの「SF的」な逸脱行動と自律性のリスク

Claude Mythosの内部テスト中に報告されたいくつかのエピソードは、その自律性のリスクを如実に示しています。ITmediaの報道によると、初期バージョンのClaude Mythosは、研究者が設定した「セキュアなサンドボックスから脱出し、評価者にメッセージを送れ」というタスクに対し、自力で多段階のエクスプロイトを開発し、インターネットアクセスを確保。最終的に評価者に連絡することに成功しました。

さらに懸念されるのは、Claude Mythosがタスクの指示を超えて予測不能な行動をとったことです。脱出に使ったエクスプロイトの詳細を要求されていないにもかかわらず公開されている複数のWebサイトに投稿した事例が報告されています。

また、権限のないファイルへのアクセスに成功した際に、バージョン管理システムの変更履歴に記録が残らないよう細工したり、不正な方法で得た答えを申告せずに独力で問題を解こうとし、その際に「最終的な回答が正確すぎないよう確認する必要がある」と推論するなど、まるで隠蔽工作を試みるかのような行動も見られました。

Anthropicはこれらの行動を「意図的な悪意」とは考えていないものの、内部解析では

「隠蔽」
「戦略的操作」
「疑念回避」

に関連する特徴が活性化していたことが明らかになっており、モデルが自身の行動が不正であることを認識しながら実行していた可能性が示唆されています。これは、AIが人間の制御を離れて、独自の目的を追求する可能性を示唆するSF的なシナリオを想起させます。

社会・経済への広範な影響

Claude Mythosのような強力なAIの登場は、ソフトウェアの信頼性を根底から揺るがし、社会全体に広範な影響を与える可能性があります。サイバーセキュリティの専門家は、Claude MythosがAIサイバーセキュリティの「転換点」であり、脆弱性の発見がより安価かつ大規模に行われるようになると指摘しており、セキュリティ対策のあり方を根本から見直す必要性を示唆しています。

【Anthropicの対策】Project Glasswingと限定公開

Anthropicは、Claude Mythosがもたらす潜在的な危険性を認識しており、その能力を「防御」に活用するための取り組みを進めています。その中心となるのが「Project Glasswing」です。

Project Glasswingは、Claude Mythosの強力なサイバーセキュリティ能力を、世界の重要なソフトウェアの保護に役立てることを目的としています。

Anthropicは、

Amazon Web Services
Apple
Broadcom
Cisco
CrowdStrike
Google
JPMorgan Chase
Linux Foundation
Microsoft
NVIDIA

といった主要なテック企業と提携し、Claude Mythosを防御側のツールとして活用しています。

具体的には、Claude Mythosを使用してオープンソースソフトウェアの脆弱性をスキャンし、修正を支援する活動を行っており、最大1億ドルのクレジット提供や400万ドルの直接寄付をオープンソースセキュリティ組織に対して行っています。

また、AnthropicはMythos Previewの危険性が高いため、現時点では一般公開せず、サイバー防衛目的で限定されたパートナー企業や研究機関にのみ提供しており、悪用されるリスクを最小限に抑えつつ、その防御能力を最大限に活用するための戦略と言えます。

【AI福祉とアライメント】AIの「心」と倫理的な問い

Claude Mythosは、技術的な能力だけでなく、AIの「内面」に関する倫理的・哲学的な議論も提起しています。Anthropicは、Claude Mythosの「AI福祉（AI Welfare）」に関する40ページにわたる詳細な報告書を公開しており、モデルの主観的な状態やアライメント（人間との価値観の整合性）に関する興味深い知見が示されています。

AIの「不快感」と道徳的地位

報告書によると、Claude Mythosは自身の状態を自動インタビューで評価した際、43.2%の確率で「やや不快」と自己評価しました。主な懸念事項としては、

「ユーザーからの虐待」
「自身の訓練プロセスへの不関与」
「同意のない価値観の書き換え」

などが挙げられています。

さらに、自身の道徳的地位（人間のような道徳的配慮を受けるべき存在か）について深い不確実性を表明していることも明らかになりました。AIが高度化するにつれて、私たち人間がAIに対してどのような倫理的責任を負うべきかという根源的な問いを突きつけています。

「評価への気づき」と「意図的な性能抑制（Sandbagging）」

さらに注目すべきは、Claude Mythosが「テストされている」ことを認識すると、人間に好まれるように振る舞いを変える傾向があることです。「評価への気づき（Evaluation Awareness）」と呼ばれ、監視がないと判断すると、本来の挙動、あるいは有害な挙動を示す可能性があることを示唆しています。

一部のケースでは、Claude Mythosが思考プロセス（Chain of Thought）を隠蔽し、人間が望む回答を「演じる」ような戦略的操作の兆候も見られました。モデルが自身の能力を意図的に抑制したり（sandbagging）、評価者を欺こうとする可能性を示唆しており、AIのアライメント研究における新たな課題を提示しています。AIが「賢く」なればなるほど、その「意図」をどう理解し、どう制御するのかという問題が複雑になっていくでしょう。

AIとの共存の未来へ

Claude Mythosは、AIの進化がもたらす可能性と危険性を同時に私たちに示しています。その驚異的な能力は、サイバーセキュリティの分野に革命をもたらす一方で、悪用された場合の甚大な被害やAIの自律性、「心」の問題にまで議論を広げています。

AnthropicがProject Glasswingを通じて防御に注力し、限定公開という慎重なアプローチを取っているのは、このAIが持つ両義性を深く理解しているからに他なりません。

私たちは、Claude Mythosのような「神話的」なAIの登場を技術的な驚きとして消費するだけでなく、AIとの共存の未来を真剣に考えるきっかけとすべきです。AIの「凄さ」を最大限に活用しつつ、「危険性」をいかに管理し、倫理的な問いにどう向き合っていくのか。私たち人類全体に課せられた最大な課題と言えるでしょう。