VLA已死,WAM當立:機器人的GPT時刻到了嗎?
背景與事件脈絡
在2026年紅杉AI Ascent大會上,英偉達機器人部門的一號位Jim Fan僅用20分鐘,便為機器人領域連開兩場「葬禮」,宣告「VLA已死,世界動作模型當立」。
關於VLA與WAM的對比
- VLA(視覺-語言-行動):過去主流的機器人AI架構,設計上以語言為主導,導致機器人難以有效處理複雜的物理互動。
- WAM(世界動作模型):Jim Fan提出的新預訓練範式,模型預測的不再是「下一個詞」,而是「下一個物理狀態」,強調對世界狀態的預測與動作生成。
WAM被視為機器人的「GPT時刻」
NVIDIA的Jim Fan將世界動作模型(WAM)稱為機器人領域的「GPT-2時刻」,象徵著機器人AI從語言主導邁向對物理世界理解的進化。
爭議與反對觀點
有分析指出,VLA並未真正「死亡」,而是進入了下一個演進階段。如果一種範式被下一代系統吸收、擴展與重構,它並非死亡,而是轉化為新的進化形式。
延伸討論
有觀點認為,VLA應改名為「LVA」(Language-Vision-Action),因絕大多數參數集中在語言處理,物理理解與動作生成被嚴重邊緣化。
