【Google TPU 8t / 8i】
AIエージェント時代を加速する次世代チップ

AI技術の進化は目覚ましく、大規模言語モデル（LLM）や生成AIの発展は、私たちの生活やビジネスに革命をもたらしています。このAIの進化を支える基盤技術の一つが、Googleが開発した「Tensor Processing Unit（TPU）」です。

Googleは、AIワークロードに特化したカスタムチップとしてTPUを開発し、性能を向上させてきました。

そして今回、Google Cloud Next ‘26で発表された第8世代TPU「TPU 8t」と「TPU 8i」は、AIエージェント時代を加速するための画期的なチップとして注目されています。

そこで本記事では、TPUの誕生から最新の第8世代に至るまでの進化の歴史を振り返りつつ、学習に特化した「TPU 8t」と推論に特化した「TPU 8i」のそれぞれの特徴、性能、AIエージェント時代における役割について解説します。

【TPUの進化の歴史】AIの最前線を支えるGoogleの挑戦
【第8世代TPU】8tと8iが切り拓くAIエージェント時代
1. 【TPU 8t】学習の原動力
【TPU 8i】推論の頭脳
共通のアーキテクチャとエコシステム
AIの未来を形作るTPU
関連記事

【TPUの進化の歴史】AIの最前線を支えるGoogleの挑戦

GoogleのTPUは、AIワークロードの効率化を目指して2015年に導入されました。以来、GoogleはTPUの設計と性能を継続的に改善し、AI技術の発展を強力に推進してきました。その進化の軌跡は、AIハードウェア開発におけるGoogleの先見性と技術力を示しています。

世代	発表年	主な特徴と用途
*TPU v1*	2015	推論専用に設計され、データセンターにおける電力効率と性能を大幅に向上させました。Google検索などの大規模なAI推論ワークロードを効率的に処理するために開発されました。
*TPU v2*	2017	学習ワークロードにも対応し、TPUポッドと呼ばれる大規模なクラスタ構成が可能になりました。より複雑なAIモデルの学習が可能になり、GoogleのAI研究を加速させました。
*TPU v3*	2018	性能がさらに向上し、液冷技術が本格的に導入されました。より高密度な計算能力を提供し、大規模なAIモデルの学習時間を短縮しました。
*TPU v4*	2021	光回路スイッチ（OCS）を導入し、TPUポッド内のネットワーク構成の柔軟性と効率性を高めました。数千ものTPUチップを効率的に連携させることが可能になりました。
*TPU v5e / v5p*	2023	コスト効率を重視した「v5e」と、大規模な学習に特化した「v5p」が登場し、多様なAIワークロードに対応できるようになりました。
*TPU v6e (Trillium)*	2024	推論と学習の両方で高いパフォーマンスを発揮する第6世代のTPUとして発表されました。
*TPU 8t / 8i*	2026	学習に特化した8tと推論に特化した8iに完全に分離され、AIエージェント時代に最適化された設計が施されています。

この進化の過程で、TPUはAIアクセラレータから、AIスーパーコンピューティングの基盤へと成長しました。各世代で導入された革新的な技術（液冷、OCS（光回路スイッチ）、カスタムインターコネクトなど）は、AIワークロードの要求に応えるために不可欠な要素になっています。

【第8世代TPU】8tと8iが切り拓くAIエージェント時代

Google Cloud Next ‘26で発表された第8世代TPUは、「エージェント時代」という新たなAIの潮流に対応するために、学習用と推論用に特化した2つのアーキテクチャとして登場しました。TPU 8tは大規模なモデル学習、TPU 8iは低遅延で効率的な推論を担当し、AIエージェントが自律的に問題を解決し、多段階のワークフローを実行する能力を最大限に引き出します。

【TPU 8t】学習の原動力

TPU 8tは、フロンティアモデルの開発サイクルを数ヶ月から数週間に短縮することを目標に設計された、学習に特化した強力なチップです。

大規模なスケーラビリティ：単一のTPU 8tスーパーポッドは、最大9600個のチップと2ペタバイトの共有高帯域幅メモリ（HBM）を搭載し、前世代の2倍のチップ間帯域幅を提供します。121エクサフロップスの計算能力を実現し、最も複雑なモデルが単一の巨大なメモリプールを活用できるようになります。
最大利用率：10倍高速なストレージアクセスとデータをTPUに直接取り込む「TPUDirect」の統合によって、エンドツーエンドのシステム利用率を最大化します。
ほぼ線形のスケーリング：新しい「Virgo Network」とJAX、Pathwaysソフトウェアの組み合わせにより、TPU 8tは単一の論理クラスタで最大100万個のチップまでほぼ線形にスケーリング可能です。
高い信頼性：97%以上の「Goodput（有効な計算時間）」を目指して設計されており、リアルタイムテレメトリ、障害のあるICIリンクの自動検出と再ルーティング、OCSによるハードウェアの再構成など、包括的なRAS（信頼性、可用性、保守性）機能が組み込まれています。

TPU 8tは、最先端のAIモデルを迅速に開発するための計算能力と効率性を提供します。

【TPU 8i】推論の頭脳

TPU 8iは、AIエージェントが質問に答え、タスクを委任し、結果を導き出すための「推論エンジン」として設計されています。多数の専門エージェントが連携して複雑なタスクを処理する「スウォーミング」シナリオにおいて、真価を発揮します。

「メモリの壁」の打破：288GBの高帯域幅メモリと、前世代の3倍にあたる384MBのオンチップSRAMを組み合わせることで、モデルのアクティブなワーキングセットを完全にオンチップに保持し、プロセッサのアイドル状態を解消します。
Axionによる効率性：サーバーあたりの物理CPUホストを2倍にし、Google独自のArmベースCPU「Axion」を採用することで、システム全体のパフォーマンスを最適化しています。
MoEモデルのスケーリング：Mixture of Experts（MoE）モデルに対応するため、相互接続（ICI）帯域幅を19.2 Tb/sに倍増させ、新しい「Boardfly」アーキテクチャによりネットワーク直径を50%以上短縮し、低遅延で一体的なシステムを実現します。
遅延の排除：新しいオンチップ「Collectives Acceleration Engine (CAE)」がグローバル操作をオフロードし、オンチップ遅延を最大5倍削減することで、ラグを最小限に抑えます。