【Google TPU 8t / 8i】
AIエージェント時代を加速する次世代チップ
AI技術の進化は目覚ましく、大規模言語モデル(LLM)や生成AIの発展は、私たちの生活やビジネスに革命をもたらしています。このAIの進化を支える基盤技術の一つが、Googleが開発した「Tensor Processing Unit(TPU)」です。
Googleは、AIワークロードに特化したカスタムチップとしてTPUを開発し、性能を向上させてきました。
そして今回、Google Cloud Next ‘26で発表された第8世代TPU「TPU 8t」と「TPU 8i」は、AIエージェント時代を加速するための画期的なチップとして注目されています。
そこで本記事では、TPUの誕生から最新の第8世代に至るまでの進化の歴史を振り返りつつ、学習に特化した「TPU 8t」と推論に特化した「TPU 8i」のそれぞれの特徴、性能、AIエージェント時代における役割について解説します。
【TPUの進化の歴史】AIの最前線を支えるGoogleの挑戦
GoogleのTPUは、AIワークロードの効率化を目指して2015年に導入されました。以来、GoogleはTPUの設計と性能を継続的に改善し、AI技術の発展を強力に推進してきました。その進化の軌跡は、AIハードウェア開発におけるGoogleの先見性と技術力を示しています。
| 世代 | 発表年 | 主な特徴と用途 |
| TPU v1 | 2015 | 推論専用に設計され、データセンターにおける電力効率と性能を大幅に向上させました。Google検索などの大規模なAI推論ワークロードを効率的に処理するために開発されました。 |
| TPU v2 | 2017 | 学習ワークロードにも対応し、TPUポッドと呼ばれる大規模なクラスタ構成が可能になりました。より複雑なAIモデルの学習が可能になり、GoogleのAI研究を加速させました。 |
| TPU v3 | 2018 | 性能がさらに向上し、液冷技術が本格的に導入されました。より高密度な計算能力を提供し、大規模なAIモデルの学習時間を短縮しました。 |
| TPU v4 | 2021 | 光回路スイッチ(OCS)を導入し、TPUポッド内のネットワーク構成の柔軟性と効率性を高めました。数千ものTPUチップを効率的に連携させることが可能になりました。 |
| TPU v5e / v5p | 2023 | コスト効率を重視した「v5e」と、大規模な学習に特化した「v5p」が登場し、多様なAIワークロードに対応できるようになりました。 |
| TPU v6e (Trillium) | 2024 | 推論と学習の両方で高いパフォーマンスを発揮する第6世代のTPUとして発表されました。 |
| TPU 8t / 8i | 2026 | 学習に特化した8tと推論に特化した8iに完全に分離され、AIエージェント時代に最適化された設計が施されています。 |
この進化の過程で、TPUはAIアクセラレータから、AIスーパーコンピューティングの基盤へと成長しました。各世代で導入された革新的な技術(液冷、OCS(光回路スイッチ)、カスタムインターコネクトなど)は、AIワークロードの要求に応えるために不可欠な要素になっています。
【第8世代TPU】8tと8iが切り拓くAIエージェント時代
Google Cloud Next ‘26で発表された第8世代TPUは、「エージェント時代」という新たなAIの潮流に対応するために、学習用と推論用に特化した2つのアーキテクチャとして登場しました。TPU 8tは大規模なモデル学習、TPU 8iは低遅延で効率的な推論を担当し、AIエージェントが自律的に問題を解決し、多段階のワークフローを実行する能力を最大限に引き出します。
【TPU 8t】学習の原動力
TPU 8tは、フロンティアモデルの開発サイクルを数ヶ月から数週間に短縮することを目標に設計された、学習に特化した強力なチップです。
- 大規模なスケーラビリティ:単一のTPU 8tスーパーポッドは、最大9600個のチップと2ペタバイトの共有高帯域幅メモリ(HBM)を搭載し、前世代の2倍のチップ間帯域幅を提供します。121エクサフロップスの計算能力を実現し、最も複雑なモデルが単一の巨大なメモリプールを活用できるようになります。
- 最大利用率:10倍高速なストレージアクセスとデータをTPUに直接取り込む「TPUDirect」の統合によって、エンドツーエンドのシステム利用率を最大化します。
- ほぼ線形のスケーリング:新しい「Virgo Network」とJAX、Pathwaysソフトウェアの組み合わせにより、TPU 8tは単一の論理クラスタで最大100万個のチップまでほぼ線形にスケーリング可能です。
- 高い信頼性:97%以上の「Goodput(有効な計算時間)」を目指して設計されており、リアルタイムテレメトリ、障害のあるICIリンクの自動検出と再ルーティング、OCSによるハードウェアの再構成など、包括的なRAS(信頼性、可用性、保守性)機能が組み込まれています。
TPU 8tは、最先端のAIモデルを迅速に開発するための計算能力と効率性を提供します。
【TPU 8i】推論の頭脳
TPU 8iは、AIエージェントが質問に答え、タスクを委任し、結果を導き出すための「推論エンジン」として設計されています。多数の専門エージェントが連携して複雑なタスクを処理する「スウォーミング」シナリオにおいて、真価を発揮します。
- 「メモリの壁」の打破:288GBの高帯域幅メモリと、前世代の3倍にあたる384MBのオンチップSRAMを組み合わせることで、モデルのアクティブなワーキングセットを完全にオンチップに保持し、プロセッサのアイドル状態を解消します。
- Axionによる効率性:サーバーあたりの物理CPUホストを2倍にし、Google独自のArmベースCPU「Axion」を採用することで、システム全体のパフォーマンスを最適化しています。
- MoEモデルのスケーリング:Mixture of Experts(MoE)モデルに対応するため、相互接続(ICI)帯域幅を19.2 Tb/sに倍増させ、新しい「Boardfly」アーキテクチャによりネットワーク直径を50%以上短縮し、低遅延で一体的なシステムを実現します。
- 遅延の排除:新しいオンチップ「Collectives Acceleration Engine (CAE)」がグローバル操作をオフロードし、オンチップ遅延を最大5倍削減することで、ラグを最小限に抑えます。
TPU 8iは前世代と比較して価格性能比が80%向上し、同コストで約2倍の顧客量を処理できるようになります。
共通のアーキテクチャとエコシステム
TPU 8tと8iは、どちらもGoogle独自のArmベースCPU「Axion」をホストとして採用しており、チップだけでなくシステム全体でのパフォーマンスと効率性を最適化しています。
両チップは、
- JAX
- MaxText
- PyTorch
- SGLang
- vLLM
といった主要なフレームワークをサポートし、ベアメタルアクセスを提供することで、開発者が仮想化のオーバーヘッドなしにハードウェアに直接アクセスできる環境を整えています。
また、両チップは第4世代の液冷技術によって支えられており、空冷では達成できない性能密度を維持しています。Googleは、Axionホストからアクセラレータまで、スタック全体を自社で設計・所有することで、システムレベルでのエネルギー効率を最大限に高めています。
AIの未来を形作るTPU
GoogleのTPU 8tと8iは、AIエージェント時代におけるAIワークロードの新たな基準を打ち立てるものです。
- 学習と推論に特化した設計
- 比類ないスケーラビリティ
- 卓越した効率性
は、AIモデルの開発と展開を加速し、より高度で自律的なAIシステムの実現を可能にします。
TPUの進化の歴史は、GoogleがAIの最前線で革新を続けてきた証です。TPU 8tと8iは、その歴史の最新章であり、AIが社会にもたらす変革をさらに加速させることでしょう。
これらのチップが、今後どのような画期的なAIアプリケーションを生み出すのか、その動向に注目が集まります。
関連記事


閲覧ありがとうございました。
*****************
中年独身男のお役立ち情報局
Friends-Accept by 尾河吉満
*****************


