DeepSeek新論文劇透V4新框架,用閒置網卡加速智能體推理性能,打破PD分離瓶頸
核心架構創新:DualPath雙路徑讀取機制
DeepSeek新論文提出名為DualPath的創新推理系統,專門針對智能體工作負載下的大模型(LLM)推理性能進行優化。該框架通過引入「雙路徑讀取KV-Cache(類似記憶緩存)」機制,開闢第二條數據加載路徑,有效改善了傳統PD分離架構下的讀取瓶頸和資源失衡問題。
技術實現:利用閒置網卡帶寬提升效率
通過優化從外部存儲加載KV-Cache的速度,DualPath利用解碼引擎閒置的存儲網卡(SNIC)帶寬讀取緩存,並配合高速計算網絡(RDMA)將其傳輸至預填充引擎,實現了集群存儲帶寬的全局池化與動態負載均衡。
性能表現與實際應用成果
- 在離線推理場景中,DualPath將端到端吞吐量提高了高達1.87倍。
- 在線服務的每秒智能體運行數平均提升1.96倍。
- 當追加長度增加(即GPU計算變重)時,原始框架性能逐漸逼近DualPath,顯示其在複雜任務下的顯著優勢。
合作背景與研究團隊
該論文由DeepSeek聯合北京大學、清華大學共同撰寫,聚焦於決定大模型實際應用落地的關鍵一環——推理速度,為日益複雜的AI智能體提供一套高效的底層系統解決方案。
