Google 推論晶片 TPU 8i 登場，專攻 AI 即時推理與高並發場景

2026-05-13 01:19:35 / 1 閱讀所需時間

Google 推論晶片 TPU 8i 登場，專攻 AI 即時推理與高並發場景

產品發布背景與市場意義

Google 於 Google Cloud NEXT’26 大會正式推出第八代張量處理器（TPU v8），並首次將產品線明確分為兩款獨立晶片：用於模型訓練的 TPU 8t，以及專攻推理服務的 TPU 8i。此舉宣告了 AI 晶片時代的重大轉變，反映產業在 AI 代理（Agentic AI）爆發下的需求變化。

TPU 8i 的核心定位與技術特點

TPU 8i 專為大型規模推理（Large-scale inference）與強化學習（Reinforcement learning）設計，特別針對多個 AI 代理人（AI Agents）的即時推理場景進行優化。

成本與效能優化：針對今日 Gemini 3.1 Pro 等應用，TPU 8i 代表更低的成本（約減少 50%）、更快的速度以及更具反應性的 API。
硬體架構升級：整合了 384MB 靜態隨機存取記憶體（SRAM），容量是上一代的三倍，顯著提升了並發處理能力。
降低延遲：重心在於降低延遲，以滿足高並發推理場景的需求。

與 TPU 8t 的分工合作

相較於 TPU 8t 在訓練效能上可提升近 3 倍以縮短大型模型開發週期，TPU 8i 則鎖定 AI 推論與即時推理場景。這種「訓練與推論分工」的設計，旨在終結以往一招打天下的時代，提供更精確的硬體解決方案以應對 AI 代理的複雜需求。