清華、智譜團隊提出Vision2Web:基於Agent驗證評估視覺網站開發
簡介
據論文描述,Vision2Web 通過構建包含靜態網頁、交互前端到全棧網站的三級進階任務,結合工作流式的Agent 驗證機制,填補了現有評估體系的空白,為理解AI 在視覺網站開發中的能力提供了新的基準。
核心特點
- 構建分層基準測試,涵蓋靜態網頁、交互前端到全棧網站的三級進階任務。
- 引入工作流式的Agent驗證機制,提升對AI在視覺網站開發中行為的評估精度。
- 填補了現有AI評估體系在視覺網站開發場景中的空白。
應用意義
該基準測試為研究AI在視覺網站開發中的能力提供了可復現、可驗證的評估框架,有助於推動AI在實際網頁開發場景中的落地與優化。
