Hermes團隊改寫預訓練:算力成本降六成,DeepSeek之後提效新路徑
核心技術突破:算力成本大幅降低
根據相關報導,Hermes團隊透過改寫預訓練機制,成功將算力成本降低六成,實現了在不改變模型架構的前提下,大幅優化運算效率與成本結構。
應用場景與提效成果
- 在企業AI大模型應用中,Hermes的引入使成本降低60%,同時轉化率提升18%。
- 大模型與Agent的結合,成為研發團隊的核心提效工具,可涵蓋從需求定義、程式開發到測試的全流程。
- 透過「閉環學習(Closed Learning Loop)」機制,Hermes Agent能根據使用者特定業務場景持續學習與優化,提升工具適應性。
技術背景與相關發展
DeepSeek V4大模型亦同步推出,支援100萬token上下文,並採用「稀疏注意力」(DSA)技術,有效降低單token的算力消耗,與Hermes的技術路徑形成互補。
此外,AI領域持續推動長上下文訓練與端側推理,例如在256K長上下文場景下,推理吞吐量可提升至19倍,大幅縮短處理長文件的時間。
相關技術發展也反映在API調用與任務執行的穩定性上,如OpenClaw與Hermes等Agent框架,透過優化API調用與長時間執行穩定性,進一步降低任務執行成本。
