比人類專家快2倍,斯坦福聯合英偉達發佈TTT-Discover:用「測試時強化學習」攻克科學難題
技術背景與核心創新
科學發現本質是超出訓練數據與人類現有知識的「out-of-distribution」問題。為應對此挑戰,斯坦福大學與英偉達等機構聯合提出一種新方法:在測試時進行強化學習(Test-Time Reinforcement Learning),讓AI在面對特定科學難題時,能夠「現場長腦子」,實現臨場自我進化。
實驗成果與應用範圍
- 在數學、GPU算子工程、算法設計與生物學等多個領域,TTT-Discover的表現超越當前最佳人類實現,速度快約兩倍。
- 在kernel內核編寫任務中,其執行效率比現有最佳人類實現快約2倍。
- 該技術打破了傳統AI「模型訓練完即定型」的鐵律,實現大模型在推理階段的持續學習與優化。
技術意義與未來展望
TTT-Discover為大模型推理帶來新範式,不僅提升解決科學問題的能力,也為未來AI在真實世界應用中實現即時適應與自我進化提供了可行路徑。
