不用額外緩存！英偉達開源大模型記憶壓縮方案

技術亮點

英偉達推出一項大模型記憶壓縮方案，將上下文壓縮至自身權重，並在測試中實現學習能力。該技術無需額外緩存，即可在128K超長文本上處理速度比全注意力模型快2.7倍，處理2M上下文時提速達35倍，且性能不打折。

這項技術與近期熱門的DeepSeek條件記憶模塊有所不同，屬於英偉達聯合多機構推出的TTT – E2E方法，旨在提升大模型在長時記憶與上下文處理方面的效率。

該方案已通過多個平臺傳播，包括量子位、36氪、新浪科技等，被廣泛視為推動生成式AI發展的重要突破。相關開源資源與數據集的發佈，有望加速世界模型的研究進程。