視覺 GPT 時刻來臨:DeepMind 以 Vision Banana 證明「生成即理解」,何凱明、謝賽寧參與

視覺 GPT 時刻來臨:DeepMind 以 Vision Banana 證明「生成即理解」

研究背景與核心主張

Google DeepMind 團隊聯合何凱明、謝賽寧等知名學者,發表論文《Image Generators are Generalist Vision Learners》,正式推出通用視覺模型「Vision Banana」。該研究旨在驗證一個核心假設:圖像生成預訓練模型天生具備通用視覺學習能力,即「生成即理解」。

技術架構與實現方式

Vision Banana 並非從零開始訓練,而是基於 Google 自研的頂級圖像生成基座模型 Nano Banana Pro(NBP,即 Gemini 3 Pro Image)。研究團隊通過極輕量的指令微調(Instruction Tuning),將原本專用於生圖的模型轉化為通用的視覺理解工具。

這種方法避免了傳統方法中常見的「知識遺漏」問題,成功在不犧牲生成能力的同時,賦予模型強大的理解與推理能力。

性能表現與任務驗證

在多個關鍵任務上,Vision Banana 展現了優異的表現,成功吊打專項模型 SAM 3,具體包括:

  • 2D 分割
  • 3D 深度估計
  • 法向估計

這些結果證明瞭圖像生成預訓練可以成為通用視覺學習的統一範式,標誌著計算視覺領域可能迎來類似語言模型 GPT-3 的突破時刻。

返回頂端