RL特訓出「押題大師」?破解模型微調中的多樣性危機與災難性遺忘

RL特訓出「押題大師」?破解模型微調中的多樣性危機與災難性遺忘

現象描述

當使用強化學習(RL)進行模型微調時,模型可能更擅長「押中一次正確答案」,卻喪失了原本豐富的解題路徑與候選解空間。這種現象被視為模型在學習新任務時,對原有知識與能力的嚴重退化。

核心問題:災難性遺忘

語言模型在後訓練過程中,容易發生「災難性遺忘」(Catastrophic Forgetting),導致原有能力退化。無論是使用SFT(Supervised Fine-Tuning)還是RL(Reinforcement Learning),這類方法都存在此問題。

研究突破與解決方案

  • 斯坦福陳丹琦團隊提出新突破,針對語言模型在後訓練中如何受災難性遺忘影響,提出解決方案。
  • 研究探討SFT與RL之間的遺忘差異,並指出現有研究對此問題的缺口。
  • 提出透過理性引導(Rationale Guidance)與難度調整,來減緩模型在持續學習中對舊知識的遺忘。

理論與實務連結

若將基礎模型視為已掌握大量知識與多樣解法的「知識分佈」,則RL微調的目標應是在保留既有能力的基礎上,優化其對新任務的表現。

此現象不僅是技術挑戰,也反映在實際應用中,例如大模型在微調後可能失去對多種問題的彈性與創造力。

來源:https://finance.sina.cn/stock/jdts/2026-04-09/detail-inhtwaii6026553.d.html?vt=4

返回頂端