斯坦福英偉達推出測試時強化學習：微調開源模型勝過頂級閉源模型，僅需幾百美元

核心發現

斯坦福與英偉達聯合發佈的論文TTT-Discover表明，在測試階段引入針對性強化學習，能使中等規模的開源模型在解決複雜的分佈外（OOD）科學問題時展現出卓越能力，表現優於頂級閉源模型。

該研究打破「模型訓練完即定型」的傳統範式，提出在推理階段讓AI針對特定難題「現場長腦子」，通過微調方式實現持續學習，無需大規模重新訓練。

實驗顯示，僅需數百美元的算力成本，即可實現對開源模型的有效微調，大幅降低使用門檻，使高性能AI推理更普及。

此技術特別適用於科學問題的動態推理場景，如化學反應預測、物理現象模擬等，為多領域AI應用提供新範式。