南大團隊直擊大模型高分神話:人類90分,最強模型僅49分
評測背景與核心發現
現有大模型評測分數日趨飽和,但與真實體驗差距顯著。南京大學傅朝友團隊牽頭,在Google Gemini評測團隊邀約下推出視頻理解新基準Video-MME-v2,揭示了當前大模型在實際應用中的表現與人類能力之間存在巨大落差。
技術進展與產業影響
在視頻大模型應用賽道,國產大模型正在深度融入產業。愛詩科技推出首個影視行業大模型PixVerse C1,支持文生、圖生、參考生、首尾幀生成及智能分鏡,最高支持15秒1080P視頻,具備多宮格分鏡一鍵成片、複雜場景多角色精準調度等功能,標誌著AI在影視創作領域的技術突破。
與此同時,AI大模型正成為推動生產、生活創新的重要力量,尤其在影視元宇宙領域,硬件與軟件層面的創新不斷推進,為未來產業形態提供支撐。
相關技術趨勢與挑戰
儘管大模型在圖文問答、視覺推理等任務中表現突出,但其安全性問題也日益凸顯。例如,LVLMs(基於圖像與文本的大型語言模型)相較於純文本模型,更容易被“越獄”,反映出當前技術在魯棒性與可信度方面仍面臨嚴峻挑戰。
此外,OpenAI發佈的最強模型o1在博士物理測試中取得92.8分,IOI金牌水平,顯示頂尖模型在特定領域具備強大能力,但整體表現仍與人類水平存在差距。
