Hermes 團隊改寫預訓練:算力成本降六成,DeepSeek 之後提效新路徑
核心突破:Token Superposition Training (TST)
Nous Research 團隊提出了一種名為 Token Superposition Training (TST) 的新方法。該方法的核心在於不改變模型架構,而是透過改變預訓練過程中的計算方式,顯著降低訓練成本。
實驗成果與數據
在針對 10B 參數的 MoE(混合專家)模型進行的實驗中,TST 方法實現了以下具體成果:
- 成本大幅降低:訓練成本降低了 61.3%。
- 性能提升:在降低成本的同時,模型的整體性能也得到了提升。
技術原理與意義
該技術通過改變預訓練的具體實現方式,解決了傳統大模型訓練中算力消耗過高的問題。這為在 DeepSeek 等模型之後,尋找更高效的提效路徑提供了新的技術參考,特別是在保持模型架構不變的前提下,實現了極致的成本優化。
