不用額外緩存!英偉達開源大模型記憶壓縮方案

不用額外緩存!英偉達開源大模型記憶壓縮方案

技術亮點

英偉達推出一項大模型記憶壓縮方案,將上下文壓縮至自身權重,並在測試中實現學習能力。該技術無需額外緩存,即可在128K超長文本上處理速度比全注意力模型快2.7倍,處理2M上下文時提速達35倍,且性能不打折。

技術背景

這項技術與近期熱門的DeepSeek條件記憶模塊有所不同,屬於英偉達聯合多機構推出的TTT – E2E方法,旨在提升大模型在長時記憶與上下文處理方面的效率。

應用與影響

該方案已通過多個平臺傳播,包括量子位、36氪、新浪科技等,被廣泛視為推動生成式AI發展的重要突破。相關開源資源與數據集的發佈,有望加速世界模型的研究進程。

來源:https://36kr.com/p/3638957346639232

返回頂端