Nvidia更新後訓練流程,開放權重模型Nemotron-Cascade 2達金牌級數學解題表現

Nvidia更新後訓練流程,開放權重模型Nemotron-Cascade 2達金牌級數學解題表現

模型簡介與技術背景

Nvidia研究團隊公開Nemotron-Cascade 2模型技術論文,並在Hugging Face上架模型權重、監督式微調(SFT)資料與增強學習(RL)資料。該模型為30B MoE(Mixture-of-Experts)結構,推論時僅啟用3B參數,屬於開放權重模型。

訓練流程與技術創新

Nemotron-Cascade 2採用後訓練技術路線,並強調廣泛的推理與代理任務。其訓練流程結合「級聯領域」學習法(Cascade RL),透過精密的流水線設計,有效降低訓練複雜度,並提升模型在多領域任務中的表現。

表現驗證與應用場景

  • 在數學與程式碼推理領域,Nemotron-Cascade 2達成「金牌級」表現,橫掃國際數學奧林匹亞(IMO)、資訊學奧林匹亞(IOI)與ICPC等賽事。
  • 模型在多項基準測試中表現優異,甚至超越部分更大規模的模型,展現出高效率與強大的推理能力。

產業與開源策略

Nvidia透過開源此模型,降低企業在AI應用上的門檻,使更多組織能免費取得模型權重與訓練資料,並進行客製化調整與實際部署。

來源:https://www.ithome.com.tw/news/174620

返回頂端