何愷明團隊新作「嵌入式語言流」ELF 登場:以 1.05 億參數挑戰主流擴散語言模型

何愷明團隊新作「嵌入式語言流」ELF 登場:以 1.05 億參數挑戰主流擴散語言模型

研究背景與核心概念

近日,何愷明團隊發表新論文,提出名為「嵌入式語言流」(Embedded Language Flows,簡稱 ELF)的新型語言模型。該模型旨在突破傳統自回歸(Autoregressive)架構的限制,採用基於擴散過程(Diffusion Process)的技術路線。

ELF 的核心設計理念在於將擴散過程置於連續的向量空間中執行,僅在最後一步才將結果翻譯為離散的詞彙。這種方法試圖解決傳統語言模型在處理長序列或複雜推理時的瓶頸問題。

技術優勢與性能表現

根據相關報導,ELF 模型在參數規模上極為輕量,僅使用了1.05 億(105M)參數。在訓練數據方面,它消耗了 450 億(45B)個 token,並僅需 32 步即可完成採樣生成。

在性能測試中,ELF 在 OpenWebText 數據集上展現出優異的生成困惑度(Perplexity),其表現正面跑贏了許多主流的擴散語言模型。這表明該模型在有限的計算資源下,仍能達到與大型自回歸模型相當甚至更佳的生成質量。

產業影響與未來展望

ELF 的出現標誌著語言模型發展方向的一次重要轉變,即從單純追求參數規模轉向探索更高效的架構設計。該技術若得以廣泛應用,有望大幅降低大語言模型的部署成本與能耗。

目前,該項研究已引起 AI 社區的高度關注,相關技術細節與論文詳情可參考原始發表渠道。

來源:https://36kr.com/p/3807086478302976

返回頂端