阿里、Kimi、螞蟻集體押注,混合注意力從可選項變必答題?

阿里、Kimi、螞蟻集體押注,混合注意力從可選項變必答題?

混合注意力機制成為大模型發展新趨勢

阿里的研究團隊發現,相比常用的滑動窗口注意力,線性注意力擁有更強大的上下文學習能力。隨著技術演進,混合注意力機制(Hybrid Attention)正從可選項轉變為大模型架構中的必答題。

多家科技企業積極投入混合注意力研發

阿里、Kimi、螞蟻集團等企業紛紛押注混合注意力技術,推動其在大模型架構中的廣泛應用。其中,螞蟻集團與中國人民大學聯合團隊已利用20T數據訓練出業界首個原生MoE架構擴散語言模型LLaDA-MoE,展現了混合注意力在實際場景中的潛力。

技術演進與生態發展

混合注意力機制通過結合滑動窗口注意力與線性注意力的優勢,有效提升了模型在長上下文理解與計算效率方面的表現。相關研究與實踐正逐步形成行業共識,成為大模型架構發展的重要方向。

相關技術與應用

  • 阿里Qwen3.5模型在混合注意力結構上取得新進展,進一步優化了上下文處理能力。
  • 月之暗面發佈Kimi K2.5模型,支持多模態任務,在Agent任務、代碼生成與視覺理解方面達到開源SOTA水平。
  • 國產AI技術正逐步挑戰國際巨頭,混合注意力機制成為關鍵突破點之一。

來源:https://36kr.com/p/3731179814519046

返回頂端