何愷明團隊「擴散模型」新作:在「最後一公里」離散解碼
研究核心:離散擴散語言模型
何愷明團隊近期發表了名為 MeanFlow 的新作,旨在解決傳統擴散模型在生成過程中需要大量採樣步數的問題。該研究提出了一種全新的「離散擴散語言模型」架構,直接在離散 token 空間內定義擴散過程。
此方法透過將 token 遮蔽(MASK)後逐步還原,或將 token 擾動至接近均勻分佈後再逐步修正,來實現高效能的生成。這種策略避開了傳統方法中在連續空間進行複雜運算的瓶頸,從而大幅減少所需的採樣步數。
技術優勢:無需預訓練與高效能
MeanFlow 的核心突破在於其無需預訓練(No Pre-training)且無需知識蒸餾(No Distillation)的特性。研究團隊指出,該模型僅需一次函數評估(1-NFE)即可達到目前最優(SOTA)的性能表現。
這項技術為高效且高品質的圖像生成開闢了新道路,特別適合對計算資源敏感或需要快速迭代的應用場景。透過在「最後一公里」的離散解碼環節進行優化,該模型成功平衡了生成速度與輸出質量。
