MIT新研究：大模型加噪聲就能替代GRPO/PPO調參

2026-03-16 15:53:46 / 1 閱讀所需時間

MIT新研究：大模型加噪聲就能替代GRPO/PPO調參

核心概念：RandOpt 算法通過添加高斯噪聲實現策略優化

MIT研究團隊提出RandOpt算法，其核心思想是僅需向預訓練模型添加單步高斯噪聲，無需任何迭代、學習率或梯度計算，即可實現策略優化。該方法透過對多個擾動後的模型副本進行集成，來產生穩定的策略更新。

技術優勢：簡化調參流程，避免傳統RL複雜性

與傳統的PPO或GRPO等策略優化算法相比，RandOpt大幅簡化了訓練流程。它不依賴梯度計算與複雜的超參數調節，僅透過加入噪聲與模型集成即可完成訓練，大幅降低調參門檻。

應用場景與潛力

適用於大模型的後訓練階段，特別是在缺乏高品質評分模型或計算資源有限的情境。
可作為PPO/GRPO的替代方案，尤其在探索與穩定性之間取得平衡。
為大模型的自適應學習提供新途徑，未來可能廣泛應用於自然語言處理與推理任務。

相關研究與演進

該研究與近年來針對GRPO的改進（如GDPO、HA-DW）形成對比，顯示出在策略優化領域中，從「梯度導向」轉向「噪聲導向」的趨勢。

相關論文與技術細節可參考：後訓練中的RL已死？MIT新算法挑戰傳統後訓練思維，謝賽寧轉發

來源：https://36kr.com/p/3725251983260034