Artificial Analysis改版智慧指標v4.0,新增幻覺風險與研究級推理評測
更新重點
Artificial Analysis宣布智慧指標 Intelligence Index 升級至 v4.0,移除多項常見測試,包含 MMLU-Pro、AIME2025 與 LiveCodeBench 等,並改採用新的評測組合以提升實務相關性與穩定性。
新評測組合與指標
此次更新引入 GDPval-AA 與 AA-Omniscience 作為核心評測,並納入 CritPt,以提升對實際任務需求與模型可靠性的評估能力,讓模型差距的呈現更加貼近實務。
幻覺風險與評測的實務含義
更新同時針對模型幻覺風險提出更完整的評測維度,強調對幻覺的量化與風險管控,幫助研究人員與業界更清楚地理解模型在不同情境下的輸出可信度。
重要提醒與方法論
官方也提醒,合成指標僅供比較不同模型時參考,非直接適用於所有使用案例;評測方法論仍須兼顧公平性與真實世界的適用性。
