體驗完4月最強的三個模型：跑分漲了，卻不說人話了

跑分持續增長，但用戶體感卻無明顯提升

儘管大模型的跑分持續上漲，下一代模型在技術指標上相較前代更先進，但實際使用中，用戶感受到的體驗提升卻十分有限。投資人仍依賴跑分數據來評估模型表現，然而真正決定市場成敗的關鍵，是模型是否能“說人話”——即能否以自然、清晰、符合人類溝通習慣的方式回應用戶需求。

當模型的能力已遠超大多數用戶的日常需求時，即使跑分提升10%或20%，用戶體感上也幾乎無變化。例如，上下文長度從50萬token擴展到100萬token，但99%的用戶一生中可能僅使用不到10萬token，因此這類技術進步對大眾而言意義有限。

傳統AI模型評測依賴標準化題庫與打分機制，但題庫可能被洩漏、數據存在汙染，導致評測結果失真。從2025年起，部分評測已改用更動態的題庫，以減少人為干預與偏差。

此外，從伯克利實驗室到全球AI擂臺賽，評測體系正逐步邁向競技化，以更真實地反映模型在實際場景中的表現。