Gemini 3「開眼」像素級操控，谷歌回應DeepSeek-OCR2

核心功能突破：主動圖像操控

Google 的 Gemini 3 Flash 模型新增 Agentic Vision 能力，不再只是被動接收圖像像素，而是能根據用戶需求主動編寫 Python 代碼來操縱圖像內容，實現像素級的視覺交互。

該能力使 Gemini 3 Flash 在各類視覺基準測試中實現了 5% 到 10% 的性能提升，展現出更強的圖像理解與操作能力。

谷歌明確回應 DeepSeek-OCR2 的技術進展，指出其在視覺推理與文本識別方面取得突破，同時強調 Gemini 3 在多模態任務中的優勢。

Gemini 3 支持文本、圖像、視頻等多種模態輸入，能夠理解圖像中的文本內容（OCR 準確率高達 99.3%），並結合圖像語義生成描述，例如識別產品包裝上的品牌名稱、成分列表等。