是夯爆了還是拉完了？DeepSeek V4 第一波測評來了（附排行榜）

2026-05-13 22:20:28 / 1 閱讀所需時間

DeepSeek V4 第一波測評結果分析

Arena.ai 代碼競技場排名

根據模型測評平臺 Arena.ai 在 DeepSeek V4 發布當日的數據顯示，DeepSeek V4 Pro（思考模式）在其代碼競技場中表現突出，排名開源模型第 3 位，綜合排名第 14 位。

產品定位與市場評價

此次發布被定性為「相較 DeepSeek V3.2 的重大飛躍」。此外，該模型在代碼競技場中的表現被認為是開源模型中的頂尖水平，展現了強大的代碼生成與理解能力。

其他測評平臺數據

除 Arena.ai 外，Vals AI 等第三方平臺也參與了測評。在真實任務測評基準 GDPval-AA 中，DeepSeek-V4 在全球大模型榜中位列第三，僅次於 Claude 和 GPT，但在開源模型中排名第一。其 Pro 版本在數學推理、科學推理、代碼生成、智能體任務規劃、指令遵循及幻覺控制六大維度上均取得優異成績。