大模型學會拖進度條看視頻了,阿里新研究讓視頻推理告別腦補,實現證據鏈思考
核心觀點
簡單地套用文本思維鏈,只會讓模型產生更多“腦補”和幻覺。為了解決這一難題,研究團隊提出了一個核心觀點:模型“思考”的效果,取決於我們是否教會了它“拖進度條”看視頻的能力。
技術突破
研究團隊提出「過程獎勵」機制,重塑視頻推理流程,使大模型能夠像人類一樣,通過觀看視頻的動態過程來推理,而非僅依賴靜態文本描述。
成果表現
該方法在五大主流視頻推理基準測試中均達到最新最優水平(SOTA),實現了從“腦補”到“證據鏈思考”的轉變。
創新範式
這項研究標誌著大模型推理進入「視頻思考」新範式,突破了傳統文本與圖像模態分離的侷限,讓AI能夠像人類一樣通過動態視覺過程進行邏輯推理。
相關延伸
- 視頻思考:提出“視頻思考”新範式,彌補“文本思考”與“圖像思考”在動態過程表達上的不足。
- 過程監督:採用過程與結果聯合監督的深度推理方法,強化模型對推理路徑的感知能力。
- 實際應用:實驗顯示,AI通過觀看迷宮解決視頻來學習空間推理,表現媲美人類。
