AI能力有了度量衡,兩年兩篇,00後學術新銳周樂鑫再次Nature發文
研究核心發現
研究指出,更大且更遵循指令的大模型反而表現出更低的可靠性,挑戰了傳統認為模型規模越大越可靠的觀點。
關鍵結論
- 大模型在遵循指令方面表現更佳,但其回答的可靠性反而下降。
- 某些情況下,GPT-4 在回答問題時的可靠性甚至低於較小模型。
- 研究提出解決方案,包括使用人類難度預期進行訓練或微調模型,以及教會模型如何規避超出自身能力範圍的問題。
研究背景與意義
該研究填補了人工智能評測在穩健性與全面性方面的空白,深化了對大模型可靠性的理解,為未來AI模型的設計與評估提供了重要參考。
