谷歌 Vision Banana 統一視覺任務,生成即理解
研究背景與團隊
4 月 25 日,科技圈迎來重大突破。谷歌 DeepMind 聯合何愷明、謝賽寧、Jonathan T. Barron 等全球頂尖學者,正式發布視覺 AI 領域的顛覆性成果。
核心突破:Vision Banana
此次發布的成果名為”Vision Banana”。過去二十年,視覺 AI 領域長期面臨輸出格式不統一的問題,導致模型難以跨任務應用。Vision Banana 將輸出統一到了最底層,反而獲得了最大的靈活性。
該架構將視覺任務的輸出整合為單一格式,實現了”生成即理解”的範式轉移。這意味著模型不僅能生成圖像,還能直接進行理解與推理,大幅提升了視覺 AI 的通用性與效率。
技術意義
此成果標誌著視覺 AI 終於”開竅”。通過統一底層輸出,Vision Banana 解決了長期困擾行業的碎片化問題,為後續的視覺模型發展奠定了堅實基礎。
