Adam之後選哪個？浙大團隊對23種優化器做了迄今最系統的評測

背景與問題

在大模型訓練過程中，優化器的選擇開始成為關鍵瓶頸。儘管AdamW等自適應優化器長期被視為標準選擇，但其在不同任務與數據集上的表現仍存在爭議，促使研究團隊對多種優化器進行系統性評估。

浙大團隊針對23種常見優化器進行了全面測試，涵蓋SGD、Adam、AdamW、AdaBound等，並在預訓練、監督微調（SFT）與基於人類反饋的強化學習（RLHF）階段進行驗證。

研究發現，雖然AdamW因自適應學習率機制而廣為使用，但在非凸問題與高維空間中，其穩定性與收斂速度仍不如某些專門設計的算法。

該評測結果顯示，傳統Adam類優化器雖仍具備實用價值，但針對特定任務（如CV、NLP）的專用算法（如AdaBound）可能提供更佳性能，未來研究將聚焦於開發更穩定、高效且可解釋的優化策略。