不好意思，機器人無法僅靠視覺理解世界

視覺數據的侷限性

生數科技創始人、清華大學人工智能研究院副院長朱軍表示，視覺數據雖能提供海量真實世界資訊，但機器人僅靠視頻難以真正理解物理規律與因果結構。真正的通用人工智能（AGI）必須超越視覺表層，建立對物理世界內在機制的主動理解。

李飛飛所定義的世界模型，旨在在機器中複現人類對物理世界的主動理解與模擬。這不僅是對2D視覺資訊的被動分類，更是對3D空間的主動建模與推演，強調對環境變化的預測與因果關係的推理。

當前機器人僅透過「觀察影片」學習，仍無法等同於「理解物理受力」。例如，模仿動作不等於掌握物體間的力學規律，這顯示視覺學習在物理世界中的應用仍存在根本性缺口。

專家預計，2026年將迎來AI世界模型的重大突破。這將推動機器人從「模仿行為」邁向「理解因果」，進而實現對真實物理世界的主動互動與決策。