訓練加速1.8倍，推理開銷降78%，精準篩選題目高效加速RL訓練

核心技術與成果

針對傳統「題海戰術」（Uniform採樣）的效率問題，提出MoPPS框架，能為模型精準挑選關鍵題目，實現訓練過程大幅加速，訓練速度提升達1.6至1.8倍，且訓練效果更佳。

將每一道題目視為「機器人」（老虎機），並利用Beta分佈來估計其成功概率，優先選擇對訓練更有價值的題目，有效提升訓練效率。

該創新方法不僅顯著提升大語言模型的推理能力，更在訓練效率上實現前所未有的突破，為強化學習（RL）訓練帶來重大進展。