Google 推論晶片 TPU 8i 登場,專攻 AI 即時推理與高並發場景
產品發布背景與市場意義
Google 於 Google Cloud NEXT’26 大會正式推出第八代張量處理器(TPU v8),並首次將產品線明確分為兩款獨立晶片:用於模型訓練的 TPU 8t,以及專攻推理服務的 TPU 8i。此舉宣告了 AI 晶片時代的重大轉變,反映產業在 AI 代理(Agentic AI)爆發下的需求變化。
TPU 8i 的核心定位與技術特點
TPU 8i 專為大型規模推理(Large-scale inference)與強化學習(Reinforcement learning)設計,特別針對多個 AI 代理人(AI Agents)的即時推理場景進行優化。
- 成本與效能優化:針對今日 Gemini 3.1 Pro 等應用,TPU 8i 代表更低的成本(約減少 50%)、更快的速度以及更具反應性的 API。
- 硬體架構升級:整合了 384MB 靜態隨機存取記憶體(SRAM),容量是上一代的三倍,顯著提升了並發處理能力。
- 降低延遲:重心在於降低延遲,以滿足高並發推理場景的需求。
與 TPU 8t 的分工合作
相較於 TPU 8t 在訓練效能上可提升近 3 倍以縮短大型模型開發週期,TPU 8i 則鎖定 AI 推論與即時推理場景。這種「訓練與推論分工」的設計,旨在終結以往一招打天下的時代,提供更精確的硬體解決方案以應對 AI 代理的複雜需求。
