華人一作,Meta等複刻AlphaZero神話,AI甩開人類自修成神
事件背景與核心主張
多家媒體報導指出,Meta、UIUC 與 CMU 等研究團隊正嘗試以自我對弈(self-play)方式,複刻 AlphaZero 的成功神話,意在讓 AI 在不依賴人類資料的前提下推動程式碼的自我進化與改進。
自我對弈的運作方式
報導指出,研究團隊讓同一套大型語言模型在同一份程式碼庫中扮演「破壞者」與「修復者」兩個角色,透過不斷的對局、評估與修正,使代碼逐步演化。此做法以左右互搏的自我博弈模式模仿 AlphaZero 的自我學習原理,但落地於軟體編程領域,力求減少對人類資料的依賴。
技術要點與前景展望
SSR(Self-play SWE-RL)等方案被描述為透過單一 LLM 同時扮演雙方角色並透過自我博弈推動編碼突破。與以往嚴重依賴人類專家知識的訓練路徑相比,這類方法可能更高效地探索創新解,但也引發可靠性與風險管控等問題的討論。
結論
文章目前處於早期探索階段,若能在可控範圍內實現 AlphaZero 式自我進化,或為 AI 編程帶來新紀元;但相對地,需嚴格評估倫理、穩定性與風險。
