給機器人裝『隱形眼睛』,0.9B參數搞定精細操作
上海交大團隊開源Evo-Depth模型
上海交大團隊開源的Evo-Depth模型,以0.9B輕量參數,僅憑普通攝影機多視角畫面補全VLA空間短板,在仿真和真機測試中表現優異,並兼顧部署效率。
補上VLA的空間理解缺口
VLA模型通常建立在預訓練視覺語言模型(VLM)之上,僅基於2D圖像-文本數據訓練,缺乏真實世界操作所需的3D空間理解能力。當前基於顯式深度輸入的增強方案雖有進展,但仍有改善空間。
輕量化模型提升操作成功率
該模型在真機測試中達成90%的成功率,有效解決了傳統VLA模型在空間感知上的不足,展現出極佳的性能與成本平衡。
相關技術發展與應用
- 上海交大與智元機器人等團隊推出Hume,融合系統2慢思考的雙系統VLA模型,透過動作價值引導與雙系統級聯動作去噪,結合深度推理提升機器人操作能力。
- 清華團隊開發的X-VLA模型展現良好scaling特性,顯示在0.9B規模上尚未見scaling飽和,未來將持續擴展模型規模。
- 騰訊雲指出,VLA落地策略包括從「拿來主義」到「全棧自研」,逐步優化機器人感知與決策能力。
來源:https://www.dyj.live/knowledge/story_id-gm_explore-261ef621-4c96-5bb6-878a-a257b0c3675e
