谷歌AI的14年、Gemini翻身之戰,與視覺理解模型:專訪DeepMind前核心科學家Andrew Dai
Andrew Dai在谷歌的14年:深度學習時代的AI編年史
Andrew Dai在谷歌的14年,可以說是這家科技巨頭在深度學習時代的AI編年史。他長期處於Google Brain和DeepMind的核心研究項目中,從早期啟發了GPT的sequence模型,到參與多個關鍵AI項目的發展,見證了谷歌AI從基礎研究到實際應用的演進過程。
Gemini模型的開發內幕與挑戰
在專訪中,Andrew Dai深入剖析了Gemini模型的開發過程,指出谷歌內部在AI模型迭代上存在決策遲緩的問題。他提到,Gemini的推出並非一帆風順,而是經過多次內部討論與技術調整,最終才實現從文本到多模態內容的突破。
視覺理解模型的創新方向
Andrew Dai強調,Elorian AI並非要再造一個ChatGPT,而是致力於構建一個能夠「同時理解和處理文本、圖像、視頻和音頻」的原生多模態模型。這一方向旨在解決當前AI模型大多基於文本輸入的侷限,提升對真實世界場景的理解能力。
AI研發的內部挑戰與反思
他指出,谷歌內部在AI研發上存在“太慢”的問題,尤其是在面對快速變化的市場與技術趨勢時,決策流程冗長,影響了創新速度。這一反思也反映出科技企業內部組織結構與研發文化對AI發展的重要影響。
未來AI的發展路徑
Andrew Dai認為,AI的未來不僅在於模型能力的提升,更在於如何將AI與現實世界結合,例如在醫療、教育、工業等領域的實際應用。視覺理解模型的發展,將是連接AI與人類日常生活的關鍵一步。
