Nvidia更新後訓練流程,開放權重模型Nemotron-Cascade 2達金牌級數學解題表現
模型介紹與技術背景
Nvidia研究團隊公開Nemotron-Cascade 2模型技術論文,並在Hugging Face上架模型權重、監督式微調(SFT)資料與增強學習(RL)資料。該模型為30B MoE(Mixture-of-Experts)結構,推論時僅啟用3B參數,採用前代Nemotron-Nano-V3為基礎進行後訓練。
訓練流程與創新技術
Nemotron-Cascade 2採用「級聯領域」學習法(Cascade RL),結合多領域蒸餾與強化學習,大幅降低訓練複雜度。此訓練流程在僅14B參數模型中已展現強大能力,並成功在數學與程式碼推理任務上達成金牌級表現。
表現與應用
該模型在多項數學與編碼推理基準測試中,表現媲美甚至超越更大規模模型,顯示其在推理與代理任務上的卓越能力。Nvidia強調此模型可協助開發者快速建構高效能AI代理,並降低企業部署AI的門檻。
來源與開放資源
Nemotron-Cascade 2 技術論文(PDF)
Nemotron-Cascade 2 官方介紹頁面
Nemotron-Cascade 2 論文介紹(YouTube)
Nemotron-Cascade 2:30B實現黃金級推理(YouTube)
