何愷明首個語言模型：105M 參數，不走 GPT 自回歸老路

研究背景與目標

頂尖 CV 大牛何愷明團隊近期發表全新論文，推出名為 ELF (Embedded Language Flows) 的連續擴散語言模型。該研究旨在探索大語言模型（LLM）的生成機制，特別是在處理連續數據時如何避免傳統自回歸模型的侷限。

與許多仍停留在 token 層面進行擴散處理的語言模型不同，ELF 將整個生成過程視為連續的數學流形操作。這種方法允許模型在連續空間中進行推演，而非依賴離散的 token 預測，從而可能提升生成的流暢度與邏輯連貫性。

該模型擁有 1.05 億（105M） 個參數，在保持較小規模的同時展現出強大的語言理解與生成能力。研究團隊強調，此設計刻意避開了 GPT 系列所採用的自回歸（Autoregressive）老路，試圖在效率與表現之間尋找新的平衡點。