谷歌 Vision Banana 統一視覺任務，生成即理解

研究背景與團隊

4 月 25 日，科技圈迎來重大突破。谷歌 DeepMind 聯合何愷明、謝賽寧、Jonathan T. Barron 等全球頂尖學者，正式發布視覺 AI 領域的顛覆性成果。

此次發布的成果名為”Vision Banana”。過去二十年，視覺 AI 領域長期面臨輸出格式不統一的問題，導致模型難以跨任務應用。Vision Banana 將輸出統一到了最底層，反而獲得了最大的靈活性。

該架構將視覺任務的輸出整合為單一格式，實現了”生成即理解”的範式轉移。這意味著模型不僅能生成圖像，還能直接進行理解與推理，大幅提升了視覺 AI 的通用性與效率。

此成果標誌著視覺 AI 終於”開竅”。通過統一底層輸出，Vision Banana 解決了長期困擾行業的碎片化問題，為後續的視覺模型發展奠定了堅實基礎。