名師一定出高徒？清華團隊最新揭秘：別再迷信大模型蒸餾的「免費午餐」

研究背景：On-Policy 蒸餾頻頻翻車

近期，大模型 On-Policy 蒸餾技術頻繁出現失敗案例，引發業界對其有效性的質疑。清華大學團隊最新的研究系統性地解剖了這一技術的黑箱，旨在揭示其背後的機制與失敗原因。

該研究指出，On-Policy 蒸餾能否成功取決於兩個關鍵先決條件。若缺乏這些條件，即便擁有強大的教師模型，學生模型也難以達到預期表現，這打破了「名師一定出高徒」的迷思。

論文不僅停留在高層面，更深入挖掘了 Token 級別的對齊機制。研究發現，教師模型與學生模型在生成過程中的 Token 選擇與分佈存在顯著差異，這些細微的偏差是導致蒸餾效果不佳的根本原因。

基於上述發現，研究團隊提出了具體的拯救指南。通過優化先決條件的滿足方式，並調整 Token 級別的對齊策略，可以顯著提升 On-Policy 蒸餾的成功率，為大模型的高效訓練提供新的方向。