阿里、Kimi、螞蟻集體押注，混合注意力從可選項變必答題？

混合注意力機制成為大模型發展新趨勢

阿里的研究團隊發現，相比常用的滑動窗口注意力，線性注意力擁有更強大的上下文學習能力。隨著技術演進，混合注意力機制（Hybrid Attention）正從可選項轉變為大模型架構中的必答題。

阿里、Kimi、螞蟻集團等企業紛紛押注混合注意力技術，推動其在大模型架構中的廣泛應用。其中，螞蟻集團與中國人民大學聯合團隊已利用20T數據訓練出業界首個原生MoE架構擴散語言模型LLaDA-MoE，展現了混合注意力在實際場景中的潛力。

混合注意力機制通過結合滑動窗口注意力與線性注意力的優勢，有效提升了模型在長上下文理解與計算效率方面的表現。相關研究與實踐正逐步形成行業共識，成為大模型架構發展的重要方向。