【GEN-1】
Generalist AIのロボットAI基盤モデル

大規模言語モデル（LLM）の登場は、様々な分野に革命をもたらしました。しかし、AIが現実世界で物理的なタスクを実行する「身体性を持つAI（Embodied AI）」の領域では、依然として多くの課題が残されています。

エンボディドAIは、AIがデジタル空間で計算や分析を行うだけでなく、ロボットやスマートデバイスといった物理的な身体（embodiment）に組み込まれ、現実世界で直接行動する技術です。本記事では、エンボディドAIの定義、技術的基盤、従来の技術との違い、将来の展望と課題について解説します。

「フィジカルAI」とは？次世代のAI技術が変える私たちの世界！

フィジカルAI（物理AI）とは、物理法則を理解し、環境や物体と直接相互作用しながら動作するAI技術を指します。従来のAIがデジタル空間でのデータ処理や意思決定に特化していたのに対し、フィジカルAIはロボティクス、センシング技術、制御システムと統合され、物理環境での実行を目的としています。

そのような中、Generalist AIが発表したロボットAI基盤モデル「GEN-1」は、この分野における画期的な進歩として注目を集めています。

そこで本記事では、GEN-1がどのようなモデルであり、その能力、訓練方法、物理世界における汎用知能の実現に向けた意義について深く掘り下げていきます。

GEN-1とは何か？
1. GEN-1の画期的な能力
2. 訓練方法とデータエンジン
GEN-1がもたらす意義と将来の展望
結論
関連記事

GEN-1とは何か？

GEN-1は、Generalist AIが開発したリアルタイムで物理的な行動を出力する大規模マルチモーダルモデルです。同社は、GEN-0でロボット工学におけるスケーリング則の存在を初めて示し、物理AIモデルを事前学習の時代に導きました。GEN-1は、GEN-0の基盤をさらに拡張し、アルゴリズムの進歩によって、これまでのモデルでは達成困難だった性能の閾値を超えたとされています。

GEN-1の画期的な能力

GEN-1は、下記の3つの側面において、画期的な能力を発揮します。

信頼性（Reliability）

GEN-1は、従来のモデルが64%程度の成功率だったタスクにおいて、平均99%という高い成功率を達成しています。これは、ロボットが実世界で繰り返し、堅牢なパフォーマンスを発揮するための重要な指標です。従来の自動化システムは、制御された環境下で高い信頼性を実現してきましたが、GEN-1は知能によってこの信頼性を達成している点が異なります。

Ars Technicaの報道によると、GEN-1は箱を折りたたんだり、製品を梱包したり、ロボット掃除機を整備したりといった反復的で繊細な機械的タスクで99%の成功率を達成しています。

速度（Speed）

GEN-1は、既存の最先端モデルと比較して、タスクを約3倍高速に完了することができます。ロボット工学において速度は長年の課題でしたが、GEN-1はモーターの動きを速くするだけでなく、タスク全体の完了速度を向上させることで、この障壁を打ち破りました。速度の向上は、より複雑な物理ダイナミクスへの対応能力も示唆しています。

即興的知能（Improvisational Intelligence）

非構造化環境でロボットが成功するためには、予期せぬ状況に対して創造的に解決策を即興で生み出す能力が不可欠です。GEN-1は、即興的知能で顕著な進歩を見せており、予期せぬ事態に直面しても、事前に定義された行動に頼るのではなく、状況に適応して回復する能力を備えています。

物理的な常識（Physical Commonsense）に基づいた問題解決能力の表れで、ロボットが現実世界でより自律的に機能するための鍵になります。

Ars Technicaの記事では、プラスチック製の袋を振ってぬいぐるみを中に入れる、洗濯物をたたんでいる途中で動かされてもたたみ直す、小さなワッシャーがずれても両手を使って調整するといったGEN-1の即興的な動きが紹介されています。

訓練方法とデータエンジン

GEN-1の特筆すべき点は、訓練方法にあります。従来のロボットモデルが、高価で拡張が難しい膨大なロボットデータセットに依存していたのに対し、GEN-0とGEN-1の基盤モデルは、ロボットデータを一切使用せずに訓練されています。代わりに、人間が何百万もの活動を行う際に装着した低コストのウェアラブルデバイスからのデータを使用しています。

Generalist AIは、ウェアラブルデバイスを「データハンド」と呼び、人間の微細な動きと視覚情報を捉えることで50万時間以上、ペタバイト規模の物理的インタラクションデータを収集したと述べています。

このデータエンジンは、大規模なテレオペレーションやシミュレーションデータセットを必要とせずに、高いレベルの習熟度を達成できることを実証しました。GEN-1が新しいタスクに適応する際、同時にそのロボットの身体性とタスクの両方に初めて適応することになります。このデータ効率の高い学習アプローチは、物理AIモデルのスケーリングにおける新たな可能性を示しています。

GEN-1がもたらす意義と将来の展望

GEN-1は、単純な物理タスクの習熟度において、商業的な実現可能性を解き放つ画期的なモデルであるとGeneralist AIは述べています。従来の自動化では不可能だった汎用性とこれまでロボット工学では到達困難と考えられていた性能レベルを両立させるものです。

Ars Technicaは、GEN-1が「GPT-3スタイルの変曲点」に達したと評価しており、一部のタスクでは「経済的に有用な設定で展開するために必要な性能レベル」に達し始めていると指摘しています。言語モデルの進化がそうであったように、ロボットAIもデータと計算能力のスケーリングによって新たな能力を獲得し、より複雑なタスクを習得できるようになることを示唆しています。

Generalist AIは、GEN-1がすべてのタスクを解決するものではないとしながらも、物理的な経験を伴うモデルのスケーリングを継続することで、より広範な物理知能が解き放たれ、実行可能なタスクの範囲が拡大し、新たな応用分野が開かれるという見方を強めています。信頼性、速度、即興的知能の組み合わせである「習熟度（Mastery）」を定義し、その達成度を評価することで、汎用知能の実現に向けた進捗を明確にしています。