視覺 GPT 時刻來臨：DeepMind 以 Vision Banana 證明「生成即理解」，何凱明、謝賽寧參與

2026-05-13 09:21:52 / 1 閱讀所需時間

視覺 GPT 時刻來臨：DeepMind 以 Vision Banana 證明「生成即理解」

研究背景與核心主張

Google DeepMind 團隊聯合何凱明、謝賽寧等知名學者，發表論文《Image Generators are Generalist Vision Learners》，正式推出通用視覺模型「Vision Banana」。該研究旨在驗證一個核心假設：圖像生成預訓練模型天生具備通用視覺學習能力，即「生成即理解」。

技術架構與實現方式

Vision Banana 並非從零開始訓練，而是基於 Google 自研的頂級圖像生成基座模型 Nano Banana Pro（NBP，即 Gemini 3 Pro Image）。研究團隊通過極輕量的指令微調（Instruction Tuning），將原本專用於生圖的模型轉化為通用的視覺理解工具。

這種方法避免了傳統方法中常見的「知識遺漏」問題，成功在不犧牲生成能力的同時，賦予模型強大的理解與推理能力。

性能表現與任務驗證

在多個關鍵任務上，Vision Banana 展現了優異的表現，成功吊打專項模型 SAM 3，具體包括：

2D 分割
3D 深度估計
法向估計

這些結果證明瞭圖像生成預訓練可以成為通用視覺學習的統一範式，標誌著計算視覺領域可能迎來類似語言模型 GPT-3 的突破時刻。