Gemini 3「開眼」像素級操控,谷歌回應DeepSeek-OCR2
核心功能突破:主動圖像操控
Google 的 Gemini 3 Flash 模型新增 Agentic Vision 能力,不再只是被動接收圖像像素,而是能根據用戶需求主動編寫 Python 代碼來操縱圖像內容,實現像素級的視覺交互。
性能表現與測試結果
該能力使 Gemini 3 Flash 在各類視覺基準測試中實現了 5% 到 10% 的性能提升,展現出更強的圖像理解與操作能力。
與 DeepSeek-OCR2 的回應
谷歌明確回應 DeepSeek-OCR2 的技術進展,指出其在視覺推理與文本識別方面取得突破,同時強調 Gemini 3 在多模態任務中的優勢。
多模態能力與實際應用
Gemini 3 支持文本、圖像、視頻等多種模態輸入,能夠理解圖像中的文本內容(OCR 準確率高達 99.3%),並結合圖像語義生成描述,例如識別產品包裝上的品牌名稱、成分列表等。
相關技術背景
該模型基於奧比中光 Gemini 330 系列雙目 3D 相機提供的芯片級原始數據訓練,專注於提升環境深度感知與三維空間理解能力,適用於家庭與工業場景。
