都2026年了，真有必要還爭VLA和世界模型哪個更好？

2026-03-20 17:35:53 / 1 閱讀所需時間

都2026年了，真有必要還爭VLA和世界模型哪個更好？

VLA與世界模型成為智能駕駛與機器人領域兩大技術路徑

在2025至2026年期間，端到端視覺語言動作模型（VLA）與世界模型（World Model）已成為自動駕駛與機器人領域的兩大主流技術路徑。前者以理想、小鵬、小米等車企為代表，強調將感知、理解與行動統一於一個端到端框架；而世界模型則更強調在虛擬世界中再造真實世界，讓AI能像人類一樣理解現實環境、物理規律與因果關係。

產業界與學界持續推動技術整合

阿里巴巴達摩院、湖畔實驗室與浙大聯合提出WorldVLA框架，融合視覺語言動作模型（VLA）與世界模型，旨在提升AI對環境的理解與互動能力，顯示產業界正朝向技術整合方向發展。

專家觀點與技術演進展望

英偉達機器人主管Jim Fan指出，當前模型仍基於VLM架構，世界模型多用於策略評估與合成數據，尚未直接應用於運動控制，並表示期待2026年下一代大型模型的表現。
王興興在2025年世界機器人大會上直言，當前VLA模型屬於「比較傻瓜式的架構」，並對其發展持懷疑態度，引發業內討論。
小鵬與理想等車企已推出第二代VLA系統，實現L4初階能力，並強調從視覺信號到動作指令的「V-A」端到端架構，代表VLA技術正逐步落地。

未來發展趨勢與技術路線

隨著具身智能加速落地，VLA與世界模型的技術競爭將持續演進。產業界預期2026年將出現更多具備世界模型能力的實體應用，並可能出現融合兩者優點的統一框架，進而推動AI在真實環境中的自主決策與互動能力。

來源：https://36kr.com/p/3730949951091202