斯坦福英偉達推出測試時強化學習:微調開源模型勝過頂級閉源模型,僅需幾百美元
核心發現
斯坦福與英偉達聯合發佈的論文TTT-Discover表明,在測試階段引入針對性強化學習,能使中等規模的開源模型在解決複雜的分佈外(OOD)科學問題時展現出卓越能力,表現優於頂級閉源模型。
技術亮點
該研究打破「模型訓練完即定型」的傳統範式,提出在推理階段讓AI針對特定難題「現場長腦子」,通過微調方式實現持續學習,無需大規模重新訓練。
成本效益
實驗顯示,僅需數百美元的算力成本,即可實現對開源模型的有效微調,大幅降低使用門檻,使高性能AI推理更普及。
應用前景
此技術特別適用於科學問題的動態推理場景,如化學反應預測、物理現象模擬等,為多領域AI應用提供新範式。
