MIT新研究:大模型加噪聲就能替代GRPO/PPO調參
核心概念:RandOpt 算法通過添加高斯噪聲實現策略優化
MIT研究團隊提出RandOpt算法,其核心思想是僅需向預訓練模型添加單步高斯噪聲,無需任何迭代、學習率或梯度計算,即可實現策略優化。該方法透過對多個擾動後的模型副本進行集成,來產生穩定的策略更新。
技術優勢:簡化調參流程,避免傳統RL複雜性
與傳統的PPO或GRPO等策略優化算法相比,RandOpt大幅簡化了訓練流程。它不依賴梯度計算與複雜的超參數調節,僅透過加入噪聲與模型集成即可完成訓練,大幅降低調參門檻。
應用場景與潛力
- 適用於大模型的後訓練階段,特別是在缺乏高品質評分模型或計算資源有限的情境。
- 可作為PPO/GRPO的替代方案,尤其在探索與穩定性之間取得平衡。
- 為大模型的自適應學習提供新途徑,未來可能廣泛應用於自然語言處理與推理任務。
相關研究與演進
該研究與近年來針對GRPO的改進(如GDPO、HA-DW)形成對比,顯示出在策略優化領域中,從「梯度導向」轉向「噪聲導向」的趨勢。
相關論文與技術細節可參考:後訓練中的RL已死?MIT新算法挑戰傳統後訓練思維,謝賽寧轉發
