AI編程真面目:完整項目通過率僅27%
核心發現
六種主流編程智能體(Cursor、GitHub Copilot、Claude Code等)的總體提交AC率僅為27.38%,在從零構建任務中性能大幅下滑。
技術細節
- 在「補全現有代碼」任務中,AI編程工具表現穩定。
- 當任務從「補全現有代碼」轉為「從零構建」時,AI的表現出現斷崖式下跌。
- OJ提供的細粒度診斷反饋(如編譯錯誤、邏輯錯誤)對提升正確率有顯著幫助。
數據來源
數據來自對六種主流編程智能體在線上判題系統(OJ)上的實際測試。
六種主流編程智能體(Cursor、GitHub Copilot、Claude Code等)的總體提交AC率僅為27.38%,在從零構建任務中性能大幅下滑。
數據來自對六種主流編程智能體在線上判題系統(OJ)上的實際測試。