Adam之後選哪個?浙大團隊對23種優化器做了迄今最系統的評測
背景與問題
在大模型訓練過程中,優化器的選擇開始成為關鍵瓶頸。儘管AdamW等自適應優化器長期被視為標準選擇,但其在不同任務與數據集上的表現仍存在爭議,促使研究團隊對多種優化器進行系統性評估。
浙大團隊的評測重點
浙大團隊針對23種常見優化器進行了全面測試,涵蓋SGD、Adam、AdamW、AdaBound等,並在預訓練、監督微調(SFT)與基於人類反饋的強化學習(RLHF)階段進行驗證。
研究發現,雖然AdamW因自適應學習率機制而廣為使用,但在非凸問題與高維空間中,其穩定性與收斂速度仍不如某些專門設計的算法。
新算法的出現與潛力
- AdaBound:由北大與浙大學生提出,結合Adam與SGD優點,訓練速度更快,泛化能力強,且對超參數敏感度低,已於ICLR 2019獲收錄。
- Adam:被廣泛認為適合訓練GAN與非凸問題,其自適應機制能有效處理梯度變動。
應用與未來方向
該評測結果顯示,傳統Adam類優化器雖仍具備實用價值,但針對特定任務(如CV、NLP)的專用算法(如AdaBound)可能提供更佳性能,未來研究將聚焦於開發更穩定、高效且可解釋的優化策略。
