谷歌AI的14年、Gemini翻身之戰，與視覺理解模型：專訪DeepMind前核心科學家Andrew Dai

Andrew Dai在谷歌的14年：深度學習時代的AI編年史

Andrew Dai在谷歌的14年，可以說是這家科技巨頭在深度學習時代的AI編年史。他長期處於Google Brain和DeepMind的核心研究項目中，從早期啟發了GPT的sequence模型，到參與多個關鍵AI項目的發展，見證了谷歌AI從基礎研究到實際應用的演進過程。

在專訪中，Andrew Dai深入剖析了Gemini模型的開發過程，指出谷歌內部在AI模型迭代上存在決策遲緩的問題。他提到，Gemini的推出並非一帆風順，而是經過多次內部討論與技術調整，最終才實現從文本到多模態內容的突破。

Andrew Dai強調，Elorian AI並非要再造一個ChatGPT，而是致力於構建一個能夠「同時理解和處理文本、圖像、視頻和音頻」的原生多模態模型。這一方向旨在解決當前AI模型大多基於文本輸入的侷限，提升對真實世界場景的理解能力。

他指出，谷歌內部在AI研發上存在“太慢”的問題，尤其是在面對快速變化的市場與技術趨勢時，決策流程冗長，影響了創新速度。這一反思也反映出科技企業內部組織結構與研發文化對AI發展的重要影響。

Andrew Dai認為，AI的未來不僅在於模型能力的提升，更在於如何將AI與現實世界結合，例如在醫療、教育、工業等領域的實際應用。視覺理解模型的發展，將是連接AI與人類日常生活的關鍵一步。