Google拋「降本核彈」TurboQuant　以極限壓縮減少逾8成AI記憶體用量　加快運算速度最高8倍　記憶體族群連日血崩

技術核心與成效

Google發表全新AI記憶體壓縮技術「TurboQuant」，透過極限壓縮技術，將大型語言模型（LLM）運行時的快取記憶體（KV Cache）佔用壓縮至原本的六分之一，記憶體用量減少至少6倍，相當於節省超過8成。

該技術在不影響模型準確性的前提下，使AI推理速度提升最高達8倍，且無需任何預訓練或微調，即可實現高效壓縮。

消息一出，引發開發者社群熱議，並導致美股記憶體族群連日下跌，市場憂心記憶體廠將喪失「強勢定價權」，美、臺、日、韓記憶體產業股價大幅下挫，出現嚴重賣壓。

相關報導指出，Google的TurboQuant技術解決了傳統壓縮技術產生的「記憶體雜訊（Overhead）」問題，其核心專利包含「極座標量化（PolarQuant）」技術，大幅提升壓縮效率。