讓大模型「邊看邊改」，視覺分割準確率直接上漲9%

2026-05-27 16:40:16 / 1 閱讀所需時間

讓大模型「邊看邊改」，視覺分割準確率直接上漲9%

技術核心：邊看邊改的運作機制

模型不再一次性輸出mask，而是先觀察圖像、進行推理、調用視覺工具、讀取反饋，再根據歷史結果迭代修正，最終生成更可靠的準確掩碼。

應用背景與研究來源

該技術被提及於ICML 2026相關論文與技術報導中，顯示其為當前人工智能視覺處理領域的重要進展。

相關技術發展與延伸

北大、港中文與上海AI Lab提出的VGGT-Edit技術，透過「邊看邊改」方式實現3D場景編輯，提升穩定性與效率。
達摩院與阿里雲推出的M6大模型，正積極探索AI for science應用，強化大模型在科學領域的潛力。

技術影響與未來展望

此類「邊看邊改」機制不僅提升視覺分割準確率，也為大模型在實際應用場景中實現更穩健、可迭代的行為提供了關鍵基礎。

來源：https://m.sohu.com/a/1028274135_610300?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334