何愷明首個語言模型:105M 參數,不走 GPT 自回歸老路

何愷明首個語言模型:105M 參數,不走 GPT 自回歸老路

研究背景與目標

頂尖 CV 大牛何愷明團隊近期發表全新論文,推出名為 ELF (Embedded Language Flows) 的連續擴散語言模型。該研究旨在探索大語言模型(LLM)的生成機制,特別是在處理連續數據時如何避免傳統自回歸模型的侷限。

技術核心:連續擴散模型

與許多仍停留在 token 層面進行擴散處理的語言模型不同,ELF 將整個生成過程視為連續的數學流形操作。這種方法允許模型在連續空間中進行推演,而非依賴離散的 token 預測,從而可能提升生成的流暢度與邏輯連貫性。

參數規模與創新點

該模型擁有 1.05 億(105M) 個參數,在保持較小規模的同時展現出強大的語言理解與生成能力。研究團隊強調,此設計刻意避開了 GPT 系列所採用的自回歸(Autoregressive)老路,試圖在效率與表現之間尋找新的平衡點。

返回頂端