都2026年了,真有必要還爭VLA和世界模型哪個更好?
VLA與世界模型成為智能駕駛與機器人領域兩大技術路徑
在2025至2026年期間,端到端視覺語言動作模型(VLA)與世界模型(World Model)已成為自動駕駛與機器人領域的兩大主流技術路徑。前者以理想、小鵬、小米等車企為代表,強調將感知、理解與行動統一於一個端到端框架;而世界模型則更強調在虛擬世界中再造真實世界,讓AI能像人類一樣理解現實環境、物理規律與因果關係。
產業界與學界持續推動技術整合
阿里巴巴達摩院、湖畔實驗室與浙大聯合提出WorldVLA框架,融合視覺語言動作模型(VLA)與世界模型,旨在提升AI對環境的理解與互動能力,顯示產業界正朝向技術整合方向發展。
專家觀點與技術演進展望
- 英偉達機器人主管Jim Fan指出,當前模型仍基於VLM架構,世界模型多用於策略評估與合成數據,尚未直接應用於運動控制,並表示期待2026年下一代大型模型的表現。
- 王興興在2025年世界機器人大會上直言,當前VLA模型屬於「比較傻瓜式的架構」,並對其發展持懷疑態度,引發業內討論。
- 小鵬與理想等車企已推出第二代VLA系統,實現L4初階能力,並強調從視覺信號到動作指令的「V-A」端到端架構,代表VLA技術正逐步落地。
未來發展趨勢與技術路線
隨著具身智能加速落地,VLA與世界模型的技術競爭將持續演進。產業界預期2026年將出現更多具備世界模型能力的實體應用,並可能出現融合兩者優點的統一框架,進而推動AI在真實環境中的自主決策與互動能力。
