不用額外緩存!英偉達開源大模型記憶壓縮方案
技術亮點
英偉達推出一項大模型記憶壓縮方案,將上下文壓縮至自身權重,並在測試中實現學習能力。該技術無需額外緩存,即可在128K超長文本上處理速度比全注意力模型快2.7倍,處理2M上下文時提速達35倍,且性能不打折。
技術背景
這項技術與近期熱門的DeepSeek條件記憶模塊有所不同,屬於英偉達聯合多機構推出的TTT – E2E方法,旨在提升大模型在長時記憶與上下文處理方面的效率。
應用與影響
該方案已通過多個平臺傳播,包括量子位、36氪、新浪科技等,被廣泛視為推動生成式AI發展的重要突破。相關開源資源與數據集的發佈,有望加速世界模型的研究進程。
