DeepSeek新論文劇透V4新框架,用閒置網卡加速智能體推理性能,打破PD分離瓶頸

DeepSeek新論文劇透V4新框架,用閒置網卡加速智能體推理性能,打破PD分離瓶頸

核心架構創新:DualPath雙路徑讀取機制

DeepSeek新論文提出名為DualPath的創新推理系統,專門針對智能體工作負載下的大模型(LLM)推理性能進行優化。該框架通過引入「雙路徑讀取KV-Cache(類似記憶緩存)」機制,開闢第二條數據加載路徑,有效改善了傳統PD分離架構下的讀取瓶頸和資源失衡問題。

技術實現:利用閒置網卡帶寬提升效率

通過優化從外部存儲加載KV-Cache的速度,DualPath利用解碼引擎閒置的存儲網卡(SNIC)帶寬讀取緩存,並配合高速計算網絡(RDMA)將其傳輸至預填充引擎,實現了集群存儲帶寬的全局池化與動態負載均衡。

性能表現與實際應用成果

  • 在離線推理場景中,DualPath將端到端吞吐量提高了高達1.87倍。
  • 在線服務的每秒智能體運行數平均提升1.96倍。
  • 當追加長度增加(即GPU計算變重)時,原始框架性能逐漸逼近DualPath,顯示其在複雜任務下的顯著優勢。

合作背景與研究團隊

該論文由DeepSeek聯合北京大學、清華大學共同撰寫,聚焦於決定大模型實際應用落地的關鍵一環——推理速度,為日益複雜的AI智能體提供一套高效的底層系統解決方案。

來源:https://36kr.com/p/3700922638053255

返回頂端