訓練加速1.8倍,推理開銷降78%,精準篩選題目高效加速RL訓練
核心技術與成果
針對傳統「題海戰術」(Uniform採樣)的效率問題,提出MoPPS框架,能為模型精準挑選關鍵題目,實現訓練過程大幅加速,訓練速度提升達1.6至1.8倍,且訓練效果更佳。
技術原理
將每一道題目視為「機器人」(老虎機),並利用Beta分佈來估計其成功概率,優先選擇對訓練更有價值的題目,有效提升訓練效率。
應用與影響
該創新方法不僅顯著提升大語言模型的推理能力,更在訓練效率上實現前所未有的突破,為強化學習(RL)訓練帶來重大進展。
