【GEN-1】
Generalist AIのロボットAI基盤モデル
大規模言語モデル(LLM)の登場は、様々な分野に革命をもたらしました。しかし、AIが現実世界で物理的なタスクを実行する「身体性を持つAI(Embodied AI)」の領域では、依然として多くの課題が残されています。


そのような中、Generalist AIが発表したロボットAI基盤モデル「GEN-1」は、この分野における画期的な進歩として注目を集めています。
そこで本記事では、GEN-1がどのようなモデルであり、その能力、訓練方法、そして物理世界における汎用知能の実現に向けた意義について深く掘り下げていきます。
GEN-1とは何か?
GEN-1は、Generalist AIが開発したリアルタイムで物理的な行動を出力する大規模マルチモーダルモデルです。同社は、GEN-0でロボット工学におけるスケーリング則の存在を初めて示し、物理AIモデルを事前学習の時代に導きました。GEN-1は、GEN-0の基盤をさらに拡張し、アルゴリズムの進歩によって、これまでのモデルでは達成困難だった性能の閾値を超えたとされています。
GEN-1の画期的な能力
GEN-1は、下記の3つの側面において、画期的な能力を発揮します。
信頼性(Reliability)
GEN-1は、従来のモデルが64%程度の成功率だったタスクにおいて、平均99%という高い成功率を達成しています。これは、ロボットが実世界で繰り返し、堅牢なパフォーマンスを発揮するための重要な指標です。従来の自動化システムは、制御された環境下で高い信頼性を実現してきましたが、GEN-1は知能によってこの信頼性を達成している点が異なります。
Ars Technicaの報道によると、GEN-1は箱を折りたたんだり、製品を梱包したり、ロボット掃除機を整備したりといった反復的で繊細な機械的タスクで99%の成功率を達成しています。
速度(Speed)
GEN-1は、既存の最先端モデルと比較して、タスクを約3倍高速に完了することができます。ロボット工学において速度は長年の課題でしたが、GEN-1はモーターの動きを速くするだけでなく、タスク全体の完了速度を向上させることで、この障壁を打ち破りました。速度の向上は、より複雑な物理ダイナミクスへの対応能力も示唆しています。
即興的知能(Improvisational Intelligence)
非構造化環境でロボットが成功するためには、予期せぬ状況に対して創造的に解決策を即興で生み出す能力が不可欠です。GEN-1は、即興的知能で顕著な進歩を見せており、予期せぬ事態に直面しても、事前に定義された行動に頼るのではなく、状況に適応して回復する能力を備えています。
物理的な常識(Physical Commonsense)に基づいた問題解決能力の表れで、ロボットが現実世界でより自律的に機能するための鍵になります。
Ars Technicaの記事では、プラスチック製の袋を振ってぬいぐるみを中に入れる、洗濯物をたたんでいる途中で動かされてもたたみ直す、小さなワッシャーがずれても両手を使って調整するといったGEN-1の即興的な動きが紹介されています。
訓練方法とデータエンジン
GEN-1の特筆すべき点は、訓練方法にあります。従来のロボットモデルが、高価で拡張が難しい膨大なロボットデータセットに依存していたのに対し、GEN-0とGEN-1の基盤モデルは、ロボットデータを一切使用せずに訓練されています。代わりに、人間が何百万もの活動を行う際に装着した低コストのウェアラブルデバイスからのデータを使用しています。
Generalist AIは、ウェアラブルデバイスを「データハンド」と呼び、人間の微細な動きと視覚情報を捉えることで50万時間以上、ペタバイト規模の物理的インタラクションデータを収集したと述べています。
このデータエンジンは、大規模なテレオペレーションやシミュレーションデータセットを必要とせずに、高いレベルの習熟度を達成できることを実証しました。GEN-1が新しいタスクに適応する際、同時にそのロボットの身体性とタスクの両方に初めて適応することになります。このデータ効率の高い学習アプローチは、物理AIモデルのスケーリングにおける新たな可能性を示しています。
GEN-1がもたらす意義と将来の展望
GEN-1は、単純な物理タスクの習熟度において、商業的な実現可能性を解き放つ画期的なモデルであるとGeneralist AIは述べています。従来の自動化では不可能だった汎用性とこれまでロボット工学では到達困難と考えられていた性能レベルを両立させるものです。
Ars Technicaは、GEN-1が「GPT-3スタイルの変曲点」に達したと評価しており、一部のタスクでは「経済的に有用な設定で展開するために必要な性能レベル」に達し始めていると指摘しています。言語モデルの進化がそうであったように、ロボットAIもデータと計算能力のスケーリングによって新たな能力を獲得し、より複雑なタスクを習得できるようになることを示唆しています。
Generalist AIは、GEN-1がすべてのタスクを解決するものではないとしながらも、物理的な経験を伴うモデルのスケーリングを継続することで、より広範な物理知能が解き放たれ、実行可能なタスクの範囲が拡大し、新たな応用分野が開かれるという見方を強めています。信頼性、速度、即興的知能の組み合わせである「習熟度(Mastery)」を定義し、その達成度を評価することで、汎用知能の実現に向けた進捗を明確にしています。
結論
Generalist AIのロボットAI基盤モデル「GEN-1」は、物理世界における汎用知能の実現に向けた重要な一歩です。
高い信頼性、速度、そして即興的知能を兼ね備え、人間からのデータで訓練されるという革新的なアプローチは、ロボットがより複雑で非構造化された環境で自律的に機能する未来を予感させます。
今後のさらなる進化が期待されるGEN-1は、私たちの生活や産業に大きな変革をもたらす可能性を秘めています。
関連記事



閲覧ありがとうございました。
*****************
中年独身男のお役立ち情報局
Friends-Accept by 尾河吉満
*****************


