告別純獎勵試錯，二次嘗試+反思蒸餾，複雜任務提升81%

強化學習新範式ERL引入經驗反思

強化學習新範式ERL（Experience Reflection Learning）引入經驗反思機制，讓模型在接收到任務後首先進行一次嘗試，隨後根據環境反饋生成自我反思，再基於反思進行第二次嘗試，並將成功的行為內化進基礎策略中。

透過這種「二次嘗試+反思蒸餾」的機制，模型在複雜任務上的學習效率大幅提升，實驗結果顯示任務完成率與學習穩定性提升達81%。

ERL架構不僅適用於機器人控制與自主決策系統，未來亦有望廣泛應用於自然語言處理、自動駕駛與智能推薦系統等領域。