讓大模型「邊看邊改」，視覺分割準確率直接上漲9%

技術核心：邊看邊改的運作機制

模型不再一次性輸出mask，而是先觀察圖像、進行推理、調用視覺工具、讀取反饋，再根據歷史結果迭代修正，最終生成更可靠的準確掩碼。

此技術被應用於視覺分割任務中，透過讓大模型「邊看邊改」，大幅提升了分割準確率，達到直接上升9%的成果。

該技術與ICML 2026會議相關，顯示其為當前人工智能領域的前沿研究方向之一，強調大模型在視覺任務中的自適應與學習能力。

此機制不僅適用於視覺分割，也為未來Agent系統的自進化與端到端訓練提供重要參考，有助於實現大模型在真實環境中的穩定與持續演進。