Artificial Analysis改版智慧指標v4.0，新增幻覺風險與研究級推理評測

更新重點

Artificial Analysis宣布智慧指標 Intelligence Index 升級至 v4.0，移除多項常見測試，包含 MMLU-Pro、AIME2025 與 LiveCodeBench 等，並改採用新的評測組合以提升實務相關性與穩定性。

此次更新引入 GDPval-AA 與 AA-Omniscience 作為核心評測，並納入 CritPt，以提升對實際任務需求與模型可靠性的評估能力，讓模型差距的呈現更加貼近實務。

更新同時針對模型幻覺風險提出更完整的評測維度，強調對幻覺的量化與風險管控，幫助研究人員與業界更清楚地理解模型在不同情境下的輸出可信度。

官方也提醒，合成指標僅供比較不同模型時參考，非直接適用於所有使用案例；評測方法論仍須兼顧公平性與真實世界的適用性。