何愷明、謝賽寧署名，Google DeepMind 推出 Vision Banana：圖像生成器即通才視覺學習者

2026-05-13 22:05:09 / 1 閱讀所需時間

Google DeepMind 推出 Vision Banana：圖像生成器即通才視覺學習者

研究背景與核心主張

Google DeepMind 團隊近日發表新研究，提出「圖像生成器即通才視覺學習者」的觀點，挑戰傳統將圖像生成與視覺理解視為獨立任務的認知。該研究由知名學者何愷明、謝賽寧等參與署名，旨在證明圖像生成模型本身即可作為通用的視覺學習器。

模型架構與技術路徑

此次推出的通用視覺模型名為 Vision Banana。該模型並非從零開始訓練，而是基於 DeepMind 先前發布的圖像生成模型 Nano Banana Pro (NBP) 進行開發。研究團隊通過輕量級的指令微調（Lightweight Instruction Fine-tuning），將原本專注於圖像生成的 NBP 轉化為具備通用視覺理解能力的模型。

研究意義與影響

Vision Banana 的發布被視為視覺領域的「GPT 時刻」，標誌著通用多模態模型的崛起。該模型在 2D 與 3D 視覺理解任務上刷新了多項 SOTA（State-of-the-Art）指標，並展示了以圖像生成為統一範式的潛力。何愷明與謝賽寧等學者的參與，進一步強化了該研究在學術界與產業界的關注度，顯示圖像生成技術正逐漸成為解決複雜視覺問題的核心工具。