Hermes 團隊改寫預訓練：算力成本降六成，DeepSeek 之後提效新路徑

核心突破：Token Superposition Training (TST)

Nous Research 團隊提出了一種名為 Token Superposition Training (TST) 的新方法。該方法的核心在於不改變模型架構，而是透過改變預訓練過程中的計算方式，顯著降低訓練成本。

在針對 10B 參數的 MoE（混合專家）模型進行的實驗中，TST 方法實現了以下具體成果：

該技術通過改變預訓練的具體實現方式，解決了傳統大模型訓練中算力消耗過高的問題。這為在 DeepSeek 等模型之後，尋找更高效的提效路徑提供了新的技術參考，特別是在保持模型架構不變的前提下，實現了極致的成本優化。