北大袁境陽:稀疏注意力機制讓模型 10 倍加速——Attention
摘要要點
稀疏不是狀態,而是一種可以被學習的結構。
技術重點
在一個由 GQA 與 MoE 組成的 27B 模型上,Native Sparse Attention(NSA)在自預訓練階段以稀疏形式參與計算。在 64k 上下文長度下,訓練的前向推理速度最高可達全注意力的約 9 倍,反向傳播速度約 6 倍。
應用情境與影響
該稀疏注意力機制在長文本場景中有望顯著提升推理與訓練效率,幫助大規模模型更高效地處理長上下文數據。
來源:URL
