英偉達 MIT 出手,華人團隊重磅開源,大模型推理記憶體暴降 10 倍

英偉達 MIT 攜手華人團隊突破大模型推理記憶體瓶頸

研究背景與挑戰

隨著大語言模型(LLM)參數規模不斷擴大,長文本推理(Long Context Reasoning)成為當前 AI 領域的熱門趨勢。然而,傳統架構在處理長上下文時,KV Cache(關鍵值與值緩存)會導致顯存呈線性膨脹,使得消費級硬體難以支撐高參數模型的推理需求。

TriAttention 技術突破

由麻省理工學院(MIT)、英偉達(NVIDIA)與中國浙大學者聯合研發的 TriAttention 技術,針對上述瓶頸提出創新解決方案。該技術旨在優化大模型在長文本推理過程中的記憶體消耗,同時確保模型推理能力不減。

核心成果與數據

  • 記憶體降低:研究團隊成功將大模型推理時的記憶體消耗降低至原本的 10 倍
  • 硬體兼容性:成果已實現開源,並可在消費級硬體上運行。例如,僅使用一張 24GB 顯存的 RTX 4090 家用顯卡,即可流暢運行 32B 參數的大模型。
  • 效能表現:該架構能一次性讀取多份長文檔(如 6 份),並自動完成複雜任務(如撰寫週報),展現出極高的實用價值。

行業意義

此項成果被視為 AI 推理部署的里程碑事件。它不僅打破了硬體天花板,讓更強大的模型得以在普通用戶的設備上運行,也為未來大規模模型的普及與應用奠定了基礎。相關技術細節與代碼已對外公開,供研究人員與開發者進一步探索。

返回頂端