谷歌「香蕉」太狠!何愷明等引爆視覺 Transformer 時刻

谷歌 Vision Banana 統一視覺任務,生成即理解

研究背景與團隊

4 月 25 日,科技圈迎來重大突破。谷歌 DeepMind 聯合何愷明、謝賽寧、Jonathan T. Barron 等全球頂尖學者,正式發布視覺 AI 領域的顛覆性成果。

核心突破:Vision Banana

此次發布的成果名為”Vision Banana”。過去二十年,視覺 AI 領域長期面臨輸出格式不統一的問題,導致模型難以跨任務應用。Vision Banana 將輸出統一到了最底層,反而獲得了最大的靈活性。

該架構將視覺任務的輸出整合為單一格式,實現了”生成即理解”的範式轉移。這意味著模型不僅能生成圖像,還能直接進行理解與推理,大幅提升了視覺 AI 的通用性與效率。

技術意義

此成果標誌著視覺 AI 終於”開竅”。通過統一底層輸出,Vision Banana 解決了長期困擾行業的碎片化問題,為後續的視覺模型發展奠定了堅實基礎。

返回頂端