體驗完4月最強的三個模型:跑分漲了,卻不說人話了
跑分持續增長,但用戶體感卻無明顯提升
儘管大模型的跑分持續上漲,下一代模型在技術指標上相較前代更先進,但實際使用中,用戶感受到的體驗提升卻十分有限。投資人仍依賴跑分數據來評估模型表現,然而真正決定市場成敗的關鍵,是模型是否能“說人話”——即能否以自然、清晰、符合人類溝通習慣的方式回應用戶需求。
模型能力超越日常需求,多數用戶實際使用頻率極低
當模型的能力已遠超大多數用戶的日常需求時,即使跑分提升10%或20%,用戶體感上也幾乎無變化。例如,上下文長度從50萬token擴展到100萬token,但99%的用戶一生中可能僅使用不到10萬token,因此這類技術進步對大眾而言意義有限。
開源模型表現亮眼,部分已接近閉源領先水平
- DeepSeek V4-Pro-Max 已穩坐最佳開源模型寶座,在編程基準上達到頂級水平,並在推理與Agentic任務上顯著縮小與領先閉源模型的差距。
- DeepSeek V4-Flash-Max 在提供充足資源的前提下,展現出強大的性能,適合特定場景應用。
評測體系面臨挑戰,傳統Benchmark存在侷限
傳統AI模型評測依賴標準化題庫與打分機制,但題庫可能被洩漏、數據存在汙染,導致評測結果失真。從2025年起,部分評測已改用更動態的題庫,以減少人為干預與偏差。
此外,從伯克利實驗室到全球AI擂臺賽,評測體系正逐步邁向競技化,以更真實地反映模型在實際場景中的表現。
