名師一定出高徒?清華團隊最新揭秘:別再迷信大模型蒸餾的「免費午餐」
研究背景:On-Policy 蒸餾頻頻翻車
近期,大模型 On-Policy 蒸餾技術頻繁出現失敗案例,引發業界對其有效性的質疑。清華大學團隊最新的研究系統性地解剖了這一技術的黑箱,旨在揭示其背後的機制與失敗原因。
核心發現:決定成敗的兩大先決條件
該研究指出,On-Policy 蒸餾能否成功取決於兩個關鍵先決條件。若缺乏這些條件,即便擁有強大的教師模型,學生模型也難以達到預期表現,這打破了「名師一定出高徒」的迷思。
技術深究:Token 級別對齊機制
論文不僅停留在高層面,更深入挖掘了 Token 級別的對齊機制。研究發現,教師模型與學生模型在生成過程中的 Token 選擇與分佈存在顯著差異,這些細微的偏差是導致蒸餾效果不佳的根本原因。
拯救指南:如何優化蒸餾策略
基於上述發現,研究團隊提出了具體的拯救指南。通過優化先決條件的滿足方式,並調整 Token 級別的對齊策略,可以顯著提升 On-Policy 蒸餾的成功率,為大模型的高效訓練提供新的方向。
