名師一定出高徒?清華團隊最新揭秘:別再迷信大模型蒸餾的「免費午餐」

名師一定出高徒?清華團隊最新揭秘:別再迷信大模型蒸餾的「免費午餐」

研究背景:On-Policy 蒸餾頻頻翻車

近期,大模型 On-Policy 蒸餾技術頻繁出現失敗案例,引發業界對其有效性的質疑。清華大學團隊最新的研究系統性地解剖了這一技術的黑箱,旨在揭示其背後的機制與失敗原因。

核心發現:決定成敗的兩大先決條件

該研究指出,On-Policy 蒸餾能否成功取決於兩個關鍵先決條件。若缺乏這些條件,即便擁有強大的教師模型,學生模型也難以達到預期表現,這打破了「名師一定出高徒」的迷思。

技術深究:Token 級別對齊機制

論文不僅停留在高層面,更深入挖掘了 Token 級別的對齊機制。研究發現,教師模型與學生模型在生成過程中的 Token 選擇與分佈存在顯著差異,這些細微的偏差是導致蒸餾效果不佳的根本原因。

拯救指南:如何優化蒸餾策略

基於上述發現,研究團隊提出了具體的拯救指南。通過優化先決條件的滿足方式,並調整 Token 級別的對齊策略,可以顯著提升 On-Policy 蒸餾的成功率,為大模型的高效訓練提供新的方向。

來源:https://36kr.com/p/3808376117911296

返回頂端