DeepSeek新論文提出DualPath推理系統,智能體負載吞吐近翻倍
創新機制與性能提升
新論文介紹了一個名為DualPath的創新推理系統,專門針對智能體工作負載下的大模型(LLM)推理性能進行優化。透過引入「雙路徑讀取KV-Cache(類似記憶緩存)」機制,重新分配儲存網絡負載,將離線推理吞吐量最高提升1.87倍,在線服務的每秒智能體運行數平均提升1.96倍。
技術背景與應用演進
論文指出,大模型正從單輪對話機器人和獨立推理模型,快速演進為智能體系統——能夠自主規劃、調用工具,並透過多輪交互解決實際任務。這種應用範式的轉變,推動大模型推理工作負載發生重大變革:從傳統的人類-大模型互動,轉向人類-大模型-環境互動,交互輪次可達數十甚至數百輪。
合作與驗證
該系統由DeepSeek與清華大學、北京大學聯合提出,並在arXiv上公開發表。實測數據顯示,在1152張GPU集群上驗證,系統在離線推理與在線服務場景下均取得顯著性能提升,有效利用瞭解碼引擎閒置的網卡帶寬,無需增加硬體成本即可實現效能優化。
來源:https://www.panewslab.com/zh/articles/019c9e01-8ead-744e-95e8-1e5cc0311fa8
