給機器人裝『隱形眼睛』，0.9B參數搞定精細操作

上海交大團隊開源Evo-Depth模型

上海交大團隊開源的Evo-Depth模型，以0.9B輕量參數，僅憑普通攝影機多視角畫面補全VLA空間短板，在仿真和真機測試中表現優異，並兼顧部署效率。

VLA模型通常建立在預訓練視覺語言模型（VLM）之上，僅基於2D圖像-文本數據訓練，缺乏真實世界操作所需的3D空間理解能力。當前基於顯式深度輸入的增強方案雖有進展，但仍有改善空間。

該模型在真機測試中達成90%的成功率，有效解決了傳統VLA模型在空間感知上的不足，展現出極佳的性能與成本平衡。