Adam之後選哪個?浙大團隊對23種優化器做了迄今最系統的評測

Adam之後選哪個?浙大團隊對23種優化器做了迄今最系統的評測

背景與問題

在大模型訓練過程中,優化器的選擇開始成為關鍵瓶頸。儘管AdamW等自適應優化器長期被視為標準選擇,但其在不同任務與數據集上的表現仍存在爭議,促使研究團隊對多種優化器進行系統性評估。

浙大團隊的評測重點

浙大團隊針對23種常見優化器進行了全面測試,涵蓋SGD、Adam、AdamW、AdaBound等,並在預訓練、監督微調(SFT)與基於人類反饋的強化學習(RLHF)階段進行驗證。

研究發現,雖然AdamW因自適應學習率機制而廣為使用,但在非凸問題與高維空間中,其穩定性與收斂速度仍不如某些專門設計的算法。

新算法的出現與潛力

  • AdaBound:由北大與浙大學生提出,結合Adam與SGD優點,訓練速度更快,泛化能力強,且對超參數敏感度低,已於ICLR 2019獲收錄。
  • Adam:被廣泛認為適合訓練GAN與非凸問題,其自適應機制能有效處理梯度變動。

應用與未來方向

該評測結果顯示,傳統Adam類優化器雖仍具備實用價值,但針對特定任務(如CV、NLP)的專用算法(如AdaBound)可能提供更佳性能,未來研究將聚焦於開發更穩定、高效且可解釋的優化策略。

來源:https://36kr.com/p/3824188921794951

返回頂端