Google DeepMind 推出 Vision Banana:圖像生成器即通才視覺學習者
研究背景與核心主張
Google DeepMind 團隊近日發表新研究,提出「圖像生成器即通才視覺學習者」的觀點,挑戰傳統將圖像生成與視覺理解視為獨立任務的認知。該研究由知名學者何愷明、謝賽寧等參與署名,旨在證明圖像生成模型本身即可作為通用的視覺學習器。
模型架構與技術路徑
此次推出的通用視覺模型名為 Vision Banana。該模型並非從零開始訓練,而是基於 DeepMind 先前發布的圖像生成模型 Nano Banana Pro (NBP) 進行開發。研究團隊通過輕量級的指令微調(Lightweight Instruction Fine-tuning),將原本專注於圖像生成的 NBP 轉化為具備通用視覺理解能力的模型。
研究意義與影響
Vision Banana 的發布被視為視覺領域的「GPT 時刻」,標誌著通用多模態模型的崛起。該模型在 2D 與 3D 視覺理解任務上刷新了多項 SOTA(State-of-the-Art)指標,並展示了以圖像生成為統一範式的潛力。何愷明與謝賽寧等學者的參與,進一步強化了該研究在學術界與產業界的關注度,顯示圖像生成技術正逐漸成為解決複雜視覺問題的核心工具。
