「終身自學習」AI來了,MIT提出自蒸餾微調SDFT,從此告別災難性遺忘

「終身自學習」AI來了,MIT提出自蒸餾微調SDFT,從此告別災難性遺忘

什麼是SDFT?

MIT提出一種名為「自蒸餾微調」(Self-Distillation Fine-Tuning, SDFT)的方法,旨在解決大型基礎模型在持續學習過程中常見的「災難性遺忘」問題。

SDFT如何運作?

  • SDFT讓模型自身生成的數據作為「教師」,指導模型進行微調。
  • 透過讓「示範條件化模型」擔任自身導師,充分利用上下文學習能力,生成與策略一致的數據。
  • 這種方法能直接從示範數據中實現同策略學習,無需依賴外部標註資料。

實驗結果與優勢

實驗結果顯示,在技能學習與新知識獲取任務中,SDFT不僅在新任務上的表現更佳,同時顯著減少對舊任務的遺忘,其表現優於傳統的監督微調(SFT)及其他離線蒸餾方法。

在序列式持續學習實驗中,SDFT能有效緩解災難性遺忘現象,並維持模型在多項任務上的穩定性與可用性。

應用前景

SDFT為實現真正意義上的「終身學習」AI系統提供了新路徑,未來有望應用於語言模型、機器人控制等需要持續學習與適應的場景。

來源:https://36kr.com/p/3666035006808712

返回頂端