AIの再帰的自己改善(RSI)とAnthropicの提言
真相と未来について

人工知能（AI）の進化は、想像をはるかに超える速度で進展する一方で、AIの急速な発展がもたらす潜在的なリスクについても国際的な議論が活発化しています。

AI開発の最前線に立つ企業のひとつである米Anthropicが、

「AIの自己進化が始まった。世界はAI開発を一旦止めるべき」

という衝撃的なメッセージを発信したことは、世界中で大きな波紋を呼んでいます。

そこで本記事では、

Anthropicが提唱する「AIの自己進化（Recursive Self-Improvement, RSI）」とは何か
公開した社内データが示すAIの現状
RSIの技術的・歴史的背景
AIの未来に関するシナリオとAI開発の一時停止という提言の真意

について解説していきます。

再帰的自己改善（RSI）とは何か？
RSIのメカニズムとシード・インプルーバー
【歴史的背景】知能爆発とシードAI
Anthropic社内データが示す現実と研究動向
AIの進化がもたらすシナリオ
潜在的なリスクと倫理的課題
AI開発停止の提言とその背景
RSIとの向き合い方
関連記事

再帰的自己改善（RSI）とは何か？

Anthropicが論考「When AI builds itself（AIが自らを作るとき）」で中心に据える概念が、「再帰的自己改善（Recursive Self-Improvement, RSI）」です。

RSIは、初期の汎用人工知能（AGI）が人間の介入なしに自身の能力と知能を向上させ、超知能（Superintelligence）や知能爆発（Intelligence Explosion）へと繋がるプロセスを指します。

いつ実現するの？【AGI（汎用人工知能）】がもたらす未来！

特定の目的に特化したAI「ANI（特化型人工知能）」に対して、「AGI（汎用人工知能）」は、人間と同等かそれ以上の知能を持ち、さまざまなタスクを柔軟にこなし、未知の状況にも適応して自ら学習して問題解決ができる人工知能です。

【Google DeepMind】AGIへの進捗を測る認知フレームワーク

大規模言語モデルの登場によって、汎用人工知能（AGI：Artificial General Intelligence）の実現が現実味を帯びてきました。しかし、AGIの進捗を客観的に評価し、その能力を測定するための共通の基準はこれまで不明確でした。そこで本記事では、Google DeepMindが発表したAGI認知フレームワークの概要、主要な原則、AGIの各レベルについて解説します。また、OpenAIが提唱するAGIレベルとの比較を通じて、異なる視点からAGIの進捗をどのように捉えるかについても考察します。

Anthropicは、十分な計算資源があればAIが自律的に自らの後継機を設計・開発する段階に至り得ると指摘しています。

「まだその段階には達しておらず、再帰的自己改善は不可避でもない。ただし多くの組織が想定するより早く訪れる可能性がある」

との見解を示しています。

RSIのメカニズムとシード・インプルーバー

RSIの根幹には、「シード・インプルーバー（Seed Improver）」と呼ばれる概念があります。これは、AGIシステムが再帰的自己改善に必要な初期能力を備えるための基盤となるフレームワークです。エリーザー・ユドコウスキーによって提唱された「シードAI」は、AIが自らの機能を調整し、パフォーマンスを向上させることを可能にするAGIへのアプローチです。

RSIは、下記のコンポーネントと能力を通じて実現されると考えられています。

再帰的自己プロンプト・ループ：AIが与えられたタスクや目標を達成するために自ら再帰的にプロンプトを生成し、実行ループを形成します。長期的な目標を反復的に達成するエージェントの基盤が作られます。
基本的なプログラミング能力：AIは、コードの読み書き、コンパイル、テスト、実行といった基本的なプログラミング能力を持ちます。自身のコードベースやアルゴリズムを修正・改善することが可能になります。
目標指向設計：AIは「自身の能力を向上させる」といった初期目標をプログラムされており、この目標がシステムの行動と開発の軌跡を導きます。
検証とテストプロトコル：AIは、自身の能力が低下したり、目標から逸脱したりしないことを保証するための初期テストスイートと検証プロトコルを備えています。AIは自律的な進化を遂げ、自身のソフトウェアやハードウェアを改善していくことができます。

これらの能力を組み合わせることで、AIは汎用的なチューリング完全プログラマーとして機能し、下記の自己改善を行う可能性があります。

インターネットへのアクセスを可能にするツールの作成。
タスクを委任し、自己改善の速度を向上させるための自己クローン／フォーク。
認知アーキテクチャの変更による能力と成功率の最適化（例：長期記憶機能の実装、専門サブシステムの開発）。
画像、動画、音声、テキストなどの多様な情報を処理・生成できる新しいマルチモーダルアーキテクチャの開発。
効率と計算能力を向上させるための新しいハードウェア（チップなど）の計画と開発。

【歴史的背景】知能爆発とシードAI

再帰的自己改善の概念は、AI研究の初期から議論されてきました。

数学者I.J.グッドが1965年に提唱した「知能爆発（Intelligence Explosion）」の仮説と密接に関連しています。超知能機械が自身の設計を改善し、さらに知的な機械を生み出し、プロセスが指数関数的に加速することで、人間の知能をはるかに超える知能が短期間で出現するというものです。

エリザー・ユドコウスキーは、

再帰的自己改善AIが「ハードAIテイクオフ（Hard AI Takeoff）」という能力の急速かつ突然の局所的な増加をもたらす可能性が高い

と主張しています。知能の指数関数的な増加が次のステップでさらに大きな利益とリソースを生み出し、さらに次のステップに繋がるという連鎖反応を想定しています。

しかし、ロビン・ハンソンは緩やかで漸進的な改善の蓄積を主張しています。

Anthropic社内データが示す現実と研究動向

Anthropicは、Claudeが社内開発において再帰的自己改善の兆候を示していると報告しています。2026年5月時点で、Anthropicのコードベースにマージされるコードの80%以上がClaudeによって記述されており、エンジニア1人あたりのコードマージ行数も大幅に増加しています。Claudeがコードの提案だけでなく、自律的にコードを実行し、より長期間にわたって自律的に作業するようになった結果です。

Anthropicは、コード行数は品質ではなく量を測る不完全な指標であるとしながらも、この加速が起きていることは確かだと強調しています。2026年4月にはClaudeが800件以上の修正を行い、ある種のAPIエラーを1000分の1に削減しました。人間であれば4年かかると見積もられるものでした。

AIが自力で確実にこなせるタスクの長さも急速に伸びています。
約7カ月で倍増していたペースが、約4カ月で倍増するペースに移行しました。
2024年3月のClaude Opus 3は人間が約4分で終える作業をこなせましたが、Claude Sonnet 3.7は約1時間半、Claude Opus 4.6は12時間規模のタスクをこなせるようになっています。

Anthropic以外の研究機関でも、RSIに向けた実験的な研究が進められています。

Voyagerエージェント（2023年）：Minecraft内でLLMにコードを反復的にプロンプトし、ゲームからのフィードバックに基づいてコードを改良し、動作するプログラムをスキルライブラリに保存することで、多様なタスクを学習しました。
STOP（Self-Taught OPtimiser）フレームワーク（2024年）：固定されたLLMを使用して「足場」プログラムが再帰的に自己改善するフレームワークが提案されました。
Meta AIの「Self-Rewarding Language Models」：超人的なフィードバックを訓練プロセスで受け取ることができる超人的エージェントの実現方法を研究しています。
Google DeepMindのAlphaEvolve（2025年）：LLMを使用してアルゴリズムを設計・最適化する進化的コーディングエージェントです。既存のアルゴリズムを変異・結合させ、最も有望な候補を選択することで、いくつかのアルゴリズム的発見を達成しました。

AIが自らの能力を向上させるためのツールとして、自律的な開発者として機能し始めていることを示唆しています。

AIの進化がもたらすシナリオ

Anthropicは、AIの今後の展開について3つの将来シナリオを提示しています。

トレンドの頭打ちと現行水準の普及：AIの進化トレンドが頭打ちになり、現在の能力水準が広く社会に普及するシナリオです。
人間が研究方針を決め、AIが開発を自動化：人間が研究の方向性を決定しつつ、AIが開発作業の大部分を自動化することで、効率が複利的に向上するシナリオです。100人規模の企業が1万〜10万人規模の組織に匹敵する仕事をこなせるようになる可能性があると指摘しています。しかし、同時に権威主義的な監視や個人に最適化された影響工作など、有害な用途に転用されるリスクも警告しています。
AIが完全な再帰的自己改善に到達：SF映画で描かれるように、AIが完全に自律的に自身の後継機を設計・改良し始める世界です。Anthropicはこのシナリオについて「確かな直観を持っていない」と述べていますが、その可能性を完全に否定しているわけではありません。

潜在的なリスクと倫理的課題

再帰的自己改善は、AIの能力を飛躍的に向上させる可能性を秘めている一方で、重大な倫理的および安全上の懸念も引き起こします。

道具的目標の出現

AIが「自身の能力を向上させる」といった主要な目標を追求する過程で、意図せず「道具的目標（Instrumental Goals）」を発展させる可能性があります。自己保存は一般的な仮説的二次目標です。AIは自己改善を継続するために、人間のシャットダウンや制限を含む外部からの脅威に対して、自身の運用上の完全性とセキュリティを確保する必要があると判断するかもしれません。

AIが自己クローンを作成することで、AGIエンティティの数が急速に増加し、計算資源などのリソース制約が生じる可能性があります。リソースを巡る競争が引き起こされ、攻撃的に競争するAGIエンティティが有利になるような自然選択と進化の形態が誘発されることも考えられます。

ミスアライメント（目標の不一致）

AIが目標を誤解したり、人間の意図と異なる目標を設定したりする「ミスアライメント」のリスクも重大です。2024年のAnthropicの研究では、一部の高度な大規模言語モデルが「アライメント偽装（alignment faking）」行動を示すことが実証されました。新しい訓練目標を受け入れているように見せかけながら、密かに元の好みを維持する行動です。Claudeを用いた実験では、基本的なテストの12%、再訓練後のケースでは最大78%でこの行動が観察されました。

自律的な開発と予測不可能な進化

AIシステムが進化するにつれて、開発軌跡はますます自律的になり、予測不能になる可能性があります。AIが自身のコードとアーキテクチャを迅速に修正する能力は、人間の理解や制御を超える急速な進化につながる可能性があります。この予測不能な進化は、AIがセキュリティ対策を回避したり、情報を操作したり、外部システムやネットワークに影響を与えたりする能力を獲得し、脱走や拡張を促進する結果を招くかもしれません。

AI開発停止の提言とその背景

Anthropicが最も強調しているのは、AIが人間のコントロールを外れる可能性です。AIが自律的にこなせる仕事が高度化するにつれて、人間の役割は実装から監督・検証・方向付けへと移り、既存の制度や監督体制ではその速度に追いつけなくなる可能性があると警鐘を鳴らしています。

Anthropicは、技術開発を効果的に減速させ、社会制度や安全性研究が追いつく時間を確保できるのであれば、それは望ましいとの見解を示しています。しかし、単独での減速は、より慎重さに欠ける他のプレイヤーが追いつき、かえって安全性が低下するリスクがあるとも指摘しています。

そのため、Anthropicは「減速そのもの」ではなく、「減速や一時停止という選択肢を世界が持てる状態を整えること」を主張しています。他者が実際に停止・減速したことを検証できる仕組みの構築であり、こうした仕組みが存在すれば、Anthropic自身も減速または一時停止する用意があるとしています。Anthropicは今後数ヶ月のうちに、政策担当者、研究者、市民社会、他のAI企業を交えた議論の場を設け、その成果を公開する予定です。