數學家設下研究級試金石，OpenAI挑戰First Proof

背景與目標

一群來自Stanford、Harvard、Yale、Berkeley等多所頂尖大學的數學家，於2026年2月在arXiv發布《First Proof》，提出10道源自實際研究過程的數學問題，旨在建立更貼近真實學術流程的評估方法，以檢驗AI能否自主完成研究級數學證明。

這些問題是從真實研究過程中自然產生、尚未公開發表的關鍵引理（lemma），屬於研究論文等級，且每題均可在五頁內完成證明，但並非簡單或顯而易見的問題。其設計目的在於測試AI是否具備長鏈推理能力，而不只是在競賽式基準測試中取得高分。

OpenAI於2026年2月14日公開其模型對這10題的證明嘗試，並表示其中至少5題具有高度正確可能。根據內部模型的測試結果，該模型在極少人工監督下，成功應對了「First Proof」挑戰，為大部分問題提出了有希望的解決方案，其中至少有六個被認為很可能是正確的。

專家認為，《First Proof》的價值在於首次使用真實、未公開、研究級的數學問題，來界定AI當前所能觸及的學術邊界，而非簡單地給予「及格或不及格」的結論。