AI能力有了度量衡，兩年兩篇，00後學術新銳周樂鑫再次Nature發文

2026-04-03 11:51:58 / 1 閱讀所需時間

AI能力有了度量衡，兩年兩篇，00後學術新銳周樂鑫再次Nature發文

研究核心發現

研究指出，更大且更遵循指令的大模型反而表現出更低的可靠性，挑戰了傳統認為模型規模越大越可靠的觀點。

關鍵結論

大模型在遵循指令方面表現更佳，但其回答的可靠性反而下降。
某些情況下，GPT-4 在回答問題時的可靠性甚至低於較小模型。
研究提出解決方案，包括使用人類難度預期進行訓練或微調模型，以及教會模型如何規避超出自身能力範圍的問題。

研究背景與意義

該研究填補了人工智能評測在穩健性與全面性方面的空白，深化了對大模型可靠性的理解，為未來AI模型的設計與評估提供了重要參考。

來源：https://36kr.com/p/3750531153592840