AI的看圖能力，可能是編出來的

AI在未實際接收圖像時仍能正確回答視覺問題

多項前沿研究證實，多模態大模型（MLLM）在未實際接收圖像輸入的情況下，僅憑問題文本就能答對高達70%至80%的視覺問答題。這一現象表明，AI的視覺理解能力可能並非真正“看圖”，而是通過語言模型的推理能力“演出來”的。

中國人民大學人工智能學院聯合螞蟻集團開發出LLaDA-o系統，這是一個革命性的AI模型，能夠同時理解圖像內容並生成高質量圖片。該系統採用創新的混合擴散技術，實現了圖像理解與生成的深度融合。

香港大學團隊開發了MiCo多圖對比框架，通過自監督學習讓AI學會像人類一樣比較多張圖片的細微差異。該方法無需人工標註，僅使用圖像內在約束作為監督信號，顯著提升了AI對圖像間關係的理解能力。

人工智能在圖像處理方面正推動創意革命，能夠自動執行裁剪、圖像編輯、自動佈局等重複性任務，釋放設計師專注於更具創造性的設計工作。例如Adobe Firefly等工具，已能根據文字提示生成高質量影像，同時保持創作者對創意的控制。

多模態大模型的核心優勢在於更符合人類認知世界的習慣，因為人類通過多種感官接收信息，這些信息通常是互補和協同的。使用多模態大模型可以更好地理解圖像與文本之間的關聯，提升整體信息處理能力。