RL特訓出「押題大師」？破解模型微調中的多樣性危機與災難性遺忘

現象描述

當使用強化學習（RL）進行模型微調時，模型可能更擅長「押中一次正確答案」，卻喪失了原本豐富的解題路徑與候選解空間。這種現象被視為模型在學習新任務時，對原有知識與能力的嚴重退化。

語言模型在後訓練過程中，容易發生「災難性遺忘」（Catastrophic Forgetting），導致原有能力退化。無論是使用SFT（Supervised Fine-Tuning）還是RL（Reinforcement Learning），這類方法都存在此問題。

若將基礎模型視為已掌握大量知識與多樣解法的「知識分佈」，則RL微調的目標應是在保留既有能力的基礎上，優化其對新任務的表現。

此現象不僅是技術挑戰，也反映在實際應用中，例如大模型在微調後可能失去對多種問題的彈性與創造力。