小眾架構贏麻了!通過編輯功能讓100B擴散模型飆出892 tokens/秒的速度

小眾架構贏麻了!通過編輯功能讓100B擴散模型飆出892 tokens/秒的速度

核心突破:擴散語言模型實現高速生成

被長期視為學術玩具的擴散語言模型,直接在複雜編程任務中飆出了892 tokens/秒的速度!你沒看錯,當主流大模型還在以幾十token的速度逐字蹦詞時,這個模型通過創新架構實現了顯著性能躍升。

技術細節:雙模式解碼策略

螞蟻技術研究院發佈的LLaDA2.1擴散語言模型,採用雙模式解碼策略:極速模式適合高吞吐場景,而標準模式則兼顧生成質量與穩定性,有效平衡速度與準確性。

性能對比:超越主流自迴歸模型

在HumanEval+編程基準測試中,LLaDA2.1-flash(100B)在SpeedyMode下達到892TPS的峰值速度,顯著超越傳統自迴歸模型,展現出強大的編程任務處理能力。

發佈平臺與來源

該模型由螞蟻集團技術研究院開源,相關技術報告發佈於量子位(QbitAI)專欄,內容涵蓋模型架構設計、性能測試與實際應用場景。

來源:https://36kr.com/p/3678259940909961

返回頂端