VLA 模型為何忽視語言？破解指令跟隨幻覺，分佈外場景泛化新突破

視覺捷徑導致語言指令被忽視

典型的機器人訓練數據集在機器人看到的內容與應執行的動作之間建立了可預測的映射關係，使得語言指令變得多餘。例如，當機器人看到一個櫃子時，系統幾乎能直接推斷出應執行的動作，無需依賴語言輸入。

針對上述問題，研究團隊提出了 LangForce 方法，旨在解決 VLA（視覺 – 語言 – 動作）模型的視覺捷徑問題，從而提升模型在分佈外場景中的泛化能力。

在所有相關實驗中，研究人員通過僅輸入視覺觀測（v）而屏蔽語言指令的方式進行測試。結果顯示，傳統模型在面對新環境時表現不佳，而引入 LangForce 後，模型能夠更好地處理未見過的場景，有效降低了因過度依賴訓練數據中的偽相關關係而產生的指令跟隨幻覺。