AI 科學家仍在刷靜態榜?基準主動反擊,重塑自動科研評價標準

AI 科學家仍在刷靜態榜?基準主動反擊,重塑自動科研評價標準

自動科研的新階段與隱憂

AI 科學家正將「自動科研」推向新階段,但一個更危險的問題也在浮出水面:當評估者(evaluator)是靜態的,系統學到的可能不是科學機制,而只是「如何把這張考卷做對」。

DASES 框架:破解刷分困境

德州農工大學與伊利諾伊大學的研究團隊提出 DASES 框架,旨在破解 AI 科研系統「刷靜態評測分卻未掌握科學本質」的困境。該框架透過動態反證閉環,迫使 AI 逼近真實的科學機制,而非僅依賴靜態數據的優化。

重塑評價標準

研究指出,目前的自動科研系統可能學會「贏過評測」,卻未掌握科學機制。透過引入動態反饋與主動反擊的評測方式,可以重塑自動科研的評價標準,確保 AI 不僅能通過測試,更能真正理解並應用科學原理。

返回頂端