打破視頻推理「先看後想」慣性，實現真正的「邊看邊想」

背景與應用場景

監控告警、機器人互動、自動駕駛等任務，都需要AI在處理視訊時「邊看邊想」，而非先完整觀看後才進行推理。這種需求推動了視訊推理技術的演進。

為實現流式感知視訊，越來越多方法採用「幀文交錯」（frame-text interleaving）的方式，讓模型在觀看視訊的同時，即時進行推理與決策，大幅提升反應速度與實時性。