Hermes 團隊改寫預訓練:算力成本降六成,DeepSeek 之後提效新路徑

Hermes 團隊改寫預訓練:算力成本降六成,DeepSeek 之後提效新路徑

核心突破:Token Superposition Training (TST)

Nous Research 團隊提出了一種名為 Token Superposition Training (TST) 的新方法。該方法的核心在於不改變模型架構,而是透過改變預訓練過程中的計算方式,顯著降低訓練成本並提升模型性能。

實驗成果與數據

在針對 10B 參數的 MoE(混合專家)模型進行的實驗中,TST 方法取得了以下顯著成果:

  • 成本大幅降低:訓練成本降低了 61.3%。
  • 性能提升:在保持低成本的同時,模型的整體性能也得到了提升。

此方法被視為在 DeepSeek 之後,大模型領域另一條重要的提效新路徑,特別適合需要處理大量數據但受限於算力預算的場景。

行業影響與意義

該論文在發布後迅速受到關注,閱讀量已突破 41 萬。TST 方法的出現,為大模型開發者提供了一種在不增加硬體投入的情況下,大幅優化訓練效率的解決方案,有助於推動 AI 技術在更多領域的普及與應用。

返回頂端