Hermes團隊改寫預訓練:算力成本降六成,DeepSeek之後提效新路徑

Hermes團隊改寫預訓練:算力成本降六成,DeepSeek之後提效新路徑

核心技術突破:算力成本大幅降低

根據相關報導,Hermes團隊透過改寫預訓練機制,成功將算力成本降低六成,實現了在不改變模型架構的前提下,大幅優化運算效率與成本結構。

應用場景與提效成果

  • 在企業AI大模型應用中,Hermes的引入使成本降低60%,同時轉化率提升18%。
  • 大模型與Agent的結合,成為研發團隊的核心提效工具,可涵蓋從需求定義、程式開發到測試的全流程。
  • 透過「閉環學習(Closed Learning Loop)」機制,Hermes Agent能根據使用者特定業務場景持續學習與優化,提升工具適應性。

技術背景與相關發展

DeepSeek V4大模型亦同步推出,支援100萬token上下文,並採用「稀疏注意力」(DSA)技術,有效降低單token的算力消耗,與Hermes的技術路徑形成互補。

此外,AI領域持續推動長上下文訓練與端側推理,例如在256K長上下文場景下,推理吞吐量可提升至19倍,大幅縮短處理長文件的時間。

相關技術發展也反映在API調用與任務執行的穩定性上,如OpenClaw與Hermes等Agent框架,透過優化API調用與長時間執行穩定性,進一步降低任務執行成本。

來源:https://36kr.com/p/3810440762547716

返回頂端