Artificial Analysis改版智慧指標v4.0,新增幻覺風險與研究級推理評測

Artificial Analysis改版智慧指標v4.0,新增幻覺風險與研究級推理評測

更新重點

Artificial Analysis宣布智慧指標 Intelligence Index 升級至 v4.0,移除多項常見測試,包含 MMLU-Pro、AIME2025 與 LiveCodeBench 等,並改採用新的評測組合以提升實務相關性與穩定性。

新評測組合與指標

此次更新引入 GDPval-AA 與 AA-Omniscience 作為核心評測,並納入 CritPt,以提升對實際任務需求與模型可靠性的評估能力,讓模型差距的呈現更加貼近實務。

幻覺風險與評測的實務含義

更新同時針對模型幻覺風險提出更完整的評測維度,強調對幻覺的量化與風險管控,幫助研究人員與業界更清楚地理解模型在不同情境下的輸出可信度。

重要提醒與方法論

官方也提醒,合成指標僅供比較不同模型時參考,非直接適用於所有使用案例;評測方法論仍須兼顧公平性與真實世界的適用性。

來源:https://www.ithome.com.tw/news/173267

返回頂端