大模型學會拖進度條看視頻了，阿里新研究讓視頻推理告別腦補，實現證據鏈思考

核心觀點

簡單地套用文本思維鏈，只會讓模型產生更多“腦補”和幻覺。為了解決這一難題，研究團隊提出了一個核心觀點：模型“思考”的效果，取決於我們是否教會了它“拖進度條”看視頻的能力。

研究團隊提出「過程獎勵」機制，重塑視頻推理流程，使大模型能夠像人類一樣，通過觀看視頻的動態過程來推理，而非僅依賴靜態文本描述。

該方法在五大主流視頻推理基準測試中均達到最新最優水平（SOTA），實現了從“腦補”到“證據鏈思考”的轉變。

這項研究標誌著大模型推理進入「視頻思考」新範式，突破了傳統文本與圖像模態分離的侷限，讓AI能夠像人類一樣通過動態視覺過程進行邏輯推理。