無需強化學習,蘋果團隊「簡單自蒸餾」,實現Coding模型自進化

無需強化學習,蘋果團隊「簡單自蒸餾」,實現Coding模型自進化

簡介

蘋果團隊提出一種「簡單自蒸餾」(Embarrassingly Simple Self-Distillation)技術,僅透過模型自身輸出來提升其程式碼生成能力,無需依賴強化學習或外部教師模型。

技術原理

該方法利用模型在特定溫度下產生的輸出作為訓練信號,將正確的解作為「教師」,並在原始輸出上進行微調,再於評估溫度下解碼,形成自我蒸餾流程。

優點與創新

  • 極簡設計,流程不需複雜機制或額外訓練階段。
  • 模型能從自身輸出中學習,提升程式碼品質,且在多個模型上取得實質進步。
  • 技術可擴展至其他領域,如自動工具創建與任務規劃。

應用與未來展望

此技術不僅適用於程式碼生成,還可應用於自進化規劃與工具創建,讓大語言模型能自主擴展技能庫,進而實現更自主的行為與決策能力。

來源:https://36kr.com/p/3759092647002633

返回頂端