是夯爆了還是拉完了?DeepSeek V4 第一波測評來了(附排行榜)

DeepSeek V4 第一波測評結果分析

Arena.ai 代碼競技場排名

根據模型測評平臺 Arena.ai 在 DeepSeek V4 發布當日的數據顯示,DeepSeek V4 Pro(思考模式)在其代碼競技場中表現突出,排名開源模型第 3 位,綜合排名第 14 位。

產品定位與市場評價

此次發布被定性為「相較 DeepSeek V3.2 的重大飛躍」。此外,該模型在代碼競技場中的表現被認為是開源模型中的頂尖水平,展現了強大的代碼生成與理解能力。

其他測評平臺數據

除 Arena.ai 外,Vals AI 等第三方平臺也參與了測評。在真實任務測評基準 GDPval-AA 中,DeepSeek-V4 在全球大模型榜中位列第三,僅次於 Claude 和 GPT,但在開源模型中排名第一。其 Pro 版本在數學推理、科學推理、代碼生成、智能體任務規劃、指令遵循及幻覺控制六大維度上均取得優異成績。

返回頂端