AI的看圖能力,可能是編出來的

AI的看圖能力,可能是編出來的

AI在未實際接收圖像時仍能正確回答視覺問題

多項前沿研究證實,多模態大模型(MLLM)在未實際接收圖像輸入的情況下,僅憑問題文本就能答對高達70%至80%的視覺問答題。這一現象表明,AI的視覺理解能力可能並非真正“看圖”,而是通過語言模型的推理能力“演出來”的。

AI模型同時具備圖像理解與生成能力的技術突破

中國人民大學人工智能學院聯合螞蟻集團開發出LLaDA-o系統,這是一個革命性的AI模型,能夠同時理解圖像內容並生成高質量圖片。該系統採用創新的混合擴散技術,實現了圖像理解與生成的深度融合。

香港大學團隊實現多圖對比理解

香港大學團隊開發了MiCo多圖對比框架,通過自監督學習讓AI學會像人類一樣比較多張圖片的細微差異。該方法無需人工標註,僅使用圖像內在約束作為監督信號,顯著提升了AI對圖像間關係的理解能力。

AI在圖像處理領域的應用與趨勢

人工智能在圖像處理方面正推動創意革命,能夠自動執行裁剪、圖像編輯、自動佈局等重複性任務,釋放設計師專注於更具創造性的設計工作。例如Adobe Firefly等工具,已能根據文字提示生成高質量影像,同時保持創作者對創意的控制。

多模態大模型的優勢

多模態大模型的核心優勢在於更符合人類認知世界的習慣,因為人類通過多種感官接收信息,這些信息通常是互補和協同的。使用多模態大模型可以更好地理解圖像與文本之間的關聯,提升整體信息處理能力。

來源:https://36kr.com/p/3747660619203335

返回頂端