OpenAI後訓練工程師翁家翌,提出了AgenticAI時代的下一種範式假設
核心觀點
OpenAI工程師翁家翌最近做的實驗,提出了另一種可能:在明確目標、可運行環境和反饋閉環中,AI 不只可以通過訓練模型變強,也可以通過“自主改代碼”變強。
新範式:啟發式學習(Heuristic Learning)
翁家翌提出了一種名為「Heuristic Learning(啟發式學習)」的強化學習新範式,其核心是當Coding Agent在執行任務時,能夠基於手寫規則系統(Heuristic System)進行持續迭代,從而在不依賴神經網絡的情況下,實現高效任務執行。
實驗成果
- 在經典遊戲如Atari Breakout中,AI通過自主改寫代碼,成功取得優異成績。
- 在機器人控制場景中,AI能夠根據環境反饋自主調整策略,表現出類人類的適應能力。
延伸影響
翁家翌指出,這種基於手寫規則與持續迭代的範式,可能在未來AI轉型期中,成為替代傳統深度強化學習的可行路徑,尤其在工程化與可解釋性方面具有顯著優勢。
