北大袁境陽:稀疏注意力機制讓模型 10 倍加速——Attention

北大袁境陽:稀疏注意力機制讓模型 10 倍加速——Attention

摘要要點

稀疏不是狀態,而是一種可以被學習的結構。

技術重點

在一個由 GQA 與 MoE 組成的 27B 模型上,Native Sparse Attention(NSA)在自預訓練階段以稀疏形式參與計算。在 64k 上下文長度下,訓練的前向推理速度最高可達全注意力的約 9 倍,反向傳播速度約 6 倍。

應用情境與影響

該稀疏注意力機制在長文本場景中有望顯著提升推理與訓練效率,幫助大規模模型更高效地處理長上下文數據。

來源:URL

返回頂端