本報告聚焦於首個多輪、開放視角的視頻問答基準。根據 36氪 的報導,該工作首次從感知、認知與上下文理解三個層面,系統定義了九大幻覺任務,並構建了涵蓋雙重視角、支持中英雙語的大規模高品質視頻對話數據集,旨在對多模態模型在視頻問答中的幻覺問題進行系統評測。
該基準在 WildVideo 基準系統下,對多模態模型在視頻問答任務中的幻覺問題進行系統評測。
數據集特性包括雙重視角與中英雙語支持等,旨在提升跨語言多模態任務的研究與應用。
本研究的主要目標是提供一個可操作的評估框架,幫助研究人員理解與緩解多模態視頻問答任務中的幻覺現象,促進模型的穩健性與可靠性。
更多詳情請參考原文:首個多輪、開放視角視頻問答基準,系統分類9大幻覺任務
