Transformer 能否支撐下一代 Agent?

文章以 2025 年 12 月 18 日「2025 騰訊 ConTech 大會暨騰訊科技 Hi Tech Day」的圓桌討論為引子,指出階躍星辰首席科學家張祥雨在現場提出「現有 Transformer 架構無法支撐下一代 Agent(智能體)」的觀點,並延伸到業界多位關鍵人物對 Transformer 天花板的討論。

為何 Transformer 曾成為主流

  • 文章回顧 2017 年 Google 論文《Attention Is All You Need》帶來的 Transformer:以自注意力機制取代 RNN/LSTM 的序列式處理,讓並行計算成為可能。
  • 在 GPU 算力與大量資料的加持下,形成所謂的 Scaling Law,推動從 BERT、GPT 系列到後續大量模型的發展。

核心質疑:擅長統計擬合,但難以走向因果與物理推理

  • 文章引用李飛飛的觀點,認為生成式 AI 的重要突破在於「預測下一個 Token」的目標函數,但其本質仍是依賴海量資料的機率預測,容易停留在相關性層面。
  • 引用 Ilya Sutskever 的比喻:模型像為考試練習很久、能高分但偏向記憶提取的學生;遇到未曾見過的領域時,泛化與推理能力可能不足。
  • 文章以生成式影像/影片為例,指出模型常是「看過很多樣子後的統計涌現」,未必建立在牛頓力學等物理規律的內在理解之上。

長上下文的挑戰:上下文越長,能力可能退化

  • 文章提到 2025 年業界強調長文本/長上下文,但張祥雨認為這可能是陷阱:即使宣稱支援更長 Token,實測在約 8 萬 Token 量級可能出現明顯退化(並非單純「記不住」,而是整體能力下降)。
  • 其原因被歸結為 Transformer 的計算與資訊流特性:模型深度固定、資訊流向單向,文本變長不等於「思考深度」變深。
  • 文章進一步引入「快思考/慢思考」差異:Transformer 可能更像快速反應的生成器,但缺少可反芻、多步內在推演的機制。

對下一代 Agent 的關鍵缺口:價值函數、規劃與持續學習

  • 文章引用 Ilya 的觀點,強調人類高效決策仰賴內在「價值函數」:在行動過程中就能獲得中間信號、預判路徑優劣;而現有架構缺少類似機制,決策可能需要「把記憶攤平」地查閱,計算與邏輯上都難以擴展到面向真實世界的智能體。
  • 在物理世界能力上,文章指出語言不足以構建通用智能;將語言生成的做法直接搬到視覺(例如預測下一幀)可能導致時空一致性問題。
  • 文章也提出樣本效率問題:人類能以很少的真實互動學會技能(如駕駛),被解釋為人類具有強先驗知識與直覺;而 AI 需要海量資料,反映其世界模型與先驗不足。

可能的方向:從「規模化時代」回到「研究時代」

  • 文章引用 Ilya 的宏觀判斷,認為 2020–2025 的「規模化時代」遭遇瓶頸,產業正回到更強調底層創新的「研究時代」。
  • 李飛飛的 World Labs 被提及為「空間智能」路線:試圖建立「看、做、想像」的閉環。
  • 張祥雨提到「非線性 RNN」等帶有循環、反芻、推理能力的方向,用以補足多步內在思考與自我修正。
  • 文章也指出,若底層架構轉向,硬體與資料價值可能被重估:既有基礎設施多為 Transformer 設計;而影片、感測器、機器人互動等資料可能變得更關鍵。

結語重點

文章總結:Transformer 帶來了關鍵里程碑,但其在因果推理、物理理解與長上下文下的能力等方面可能存在先天限制;多位研究者的質疑並非否定其歷史功績,而是在提醒產業需要持續尋找新的架構突破,「不要在舒適區裡沉睡」。

來源:https://36kr.com/p/3606275757113860

返回頂端