小眾架構贏麻了！通過編輯功能讓100B擴散模型飆出892 tokens/秒的速度

核心突破：擴散語言模型實現高速生成

被長期視為學術玩具的擴散語言模型，直接在複雜編程任務中飆出了892 tokens/秒的速度！你沒看錯，當主流大模型還在以幾十token的速度逐字蹦詞時，這個模型通過創新架構實現了顯著性能躍升。

螞蟻技術研究院發佈的LLaDA2.1擴散語言模型，採用雙模式解碼策略：極速模式適合高吞吐場景，而標準模式則兼顧生成質量與穩定性，有效平衡速度與準確性。

在HumanEval+編程基準測試中，LLaDA2.1-flash（100B）在SpeedyMode下達到892TPS的峰值速度，顯著超越傳統自迴歸模型，展現出強大的編程任務處理能力。

該模型由螞蟻集團技術研究院開源，相關技術報告發佈於量子位（QbitAI）專欄，內容涵蓋模型架構設計、性能測試與實際應用場景。