華人學生立大功,新王Mamba-3直擊Transformer死穴,推理效率碾壓7倍

華人學生立大功,新王Mamba-3直擊Transformer死穴,推理效率碾壓7倍

新架構Mamba-3震撼登場

由CMU與普林斯頓原班人馬開發的Mamba-3,作為新一代開源架構,正式亮相。該模型以15億參數規模,展現強大戰力,並針對Transformer結構的瓶頸進行深度優化。

推理效率大幅提升

Mamba-3在推理效率上表現卓越,據測試顯示其效能比傳統Transformer架構提升達4%,且在實際應用中,推理效率碾壓傳統模型達7倍以上,大幅縮短運算時間。

技術突破點

  • 專註解決Transformer在長序列處理時的計算複雜度問題。
  • 透過創新設計,有效降低記憶體消耗與計算開銷。
  • 由華人學生團隊主導開發,展現臺灣與國際學術合作的潛力。

來源

https://36kr.com/p/3729245598514561

來源:https://36kr.com/p/3729245598514561

返回頂端