谷歌Gemma 4深度評測：最強端側模型並不完美，但很適合手機

模型背景與技術特點

谷歌DeepMind於2026年4月2日正式發佈開源模型Gemma 4，首次在端側設備上實現原生支持函數調用、結構化JSON輸出與多模態輸入（文本/圖像/音頻）的本地AI Agent能力。

Gemma 4 E2B/E4B是谷歌利用MatFormer架構打造的輕量化端側大模型，藉由PLE和Hybrid Attention結構實現了長上下文和低內存消耗設計，內存佔用與傳統的2B和31B模型相比顯著降低。

在GPU上的性能測試中，Gemma 4本地大模型的首個Token生成時間極短（0.35秒），預填充速度極快，證明了谷歌在模型優化方面的顯著進步。

模型支持文本、圖片（可變分辨率）和視頻輸入，E2B與E4B版本原生支持音頻輸入，最長可處理30秒音頻，使端側設備無需外掛語音模塊即可實現語音交互。

iPhone用戶建議運存8GB起步，推薦12GB；安卓用戶建議運存12GB起步，推薦16GB，以確保最佳運行表現。

儘管Gemma 4在端側表現優異，但整體參數量偏小，仍無法涵蓋所有知識領域，存在「失真」和「幻覺」現象，尤其在複雜邏輯題上表現不佳，甚至出現全軍覆沒的情況。

Gemma 4系列模型支持本地運行，無需聯網，保護用戶數據隱私，且永久免費，適合專用場景如筆記、調研、寫作與展示等。