Hermes 團隊改寫預訓練：算力成本降六成，DeepSeek 之後提效新路徑

核心突破：Token Superposition Training (TST)

Nous Research 團隊提出了一種名為 Token Superposition Training (TST) 的新方法。該方法的核心在於不改變模型架構，而是透過改變預訓練過程中的計算方式，顯著降低訓練成本並提升模型性能。

在針對 10B 參數的 MoE（混合專家）模型進行的實驗中，TST 方法取得了以下顯著成果：

此方法被視為在 DeepSeek 之後，大模型領域另一條重要的提效新路徑，特別適合需要處理大量數據但受限於算力預算的場景。

該論文在發布後迅速受到關注，閱讀量已突破 41 萬。TST 方法的出現，為大模型開發者提供了一種在不增加硬體投入的情況下，大幅優化訓練效率的解決方案，有助於推動 AI 技術在更多領域的普及與應用。