數學家設下研究級試金石,OpenAI挑戰First Proof

數學家設下研究級試金石,OpenAI挑戰First Proof

背景與目標

一群來自Stanford、Harvard、Yale、Berkeley等多所頂尖大學的數學家,於2026年2月在arXiv發布《First Proof》,提出10道源自實際研究過程的數學問題,旨在建立更貼近真實學術流程的評估方法,以檢驗AI能否自主完成研究級數學證明。

試題設計與意義

這些問題是從真實研究過程中自然產生、尚未公開發表的關鍵引理(lemma),屬於研究論文等級,且每題均可在五頁內完成證明,但並非簡單或顯而易見的問題。其設計目的在於測試AI是否具備長鏈推理能力,而不只是在競賽式基準測試中取得高分。

OpenAI的回應與成果

OpenAI於2026年2月14日公開其模型對這10題的證明嘗試,並表示其中至少5題具有高度正確可能。根據內部模型的測試結果,該模型在極少人工監督下,成功應對了「First Proof」挑戰,為大部分問題提出了有希望的解決方案,其中至少有六個被認為很可能是正確的。

評價與影響

專家認為,《First Proof》的價值在於首次使用真實、未公開、研究級的數學問題,來界定AI當前所能觸及的學術邊界,而非簡單地給予「及格或不及格」的結論。

返回頂端