華人一作，Meta等複刻AlphaZero神話，AI甩開人類自修成神

事件背景與核心主張

多家媒體報導指出，Meta、UIUC 與 CMU 等研究團隊正嘗試以自我對弈（self-play）方式，複刻 AlphaZero 的成功神話，意在讓 AI 在不依賴人類資料的前提下推動程式碼的自我進化與改進。

報導指出，研究團隊讓同一套大型語言模型在同一份程式碼庫中扮演「破壞者」與「修復者」兩個角色，透過不斷的對局、評估與修正，使代碼逐步演化。此做法以左右互搏的自我博弈模式模仿 AlphaZero 的自我學習原理，但落地於軟體編程領域，力求減少對人類資料的依賴。

SSR（Self-play SWE-RL）等方案被描述為透過單一 LLM 同時扮演雙方角色並透過自我博弈推動編碼突破。與以往嚴重依賴人類專家知識的訓練路徑相比，這類方法可能更高效地探索創新解，但也引發可靠性與風險管控等問題的討論。

文章目前處於早期探索階段，若能在可控範圍內實現 AlphaZero 式自我進化，或為 AI 編程帶來新紀元；但相對地，需嚴格評估倫理、穩定性與風險。