AI編程真面目:完整項目通過率僅27%

AI編程真面目:完整項目通過率僅27%

核心發現

六種主流編程智能體(Cursor、GitHub Copilot、Claude Code等)的總體提交AC率僅為27.38%,在從零構建任務中性能大幅下滑。

技術細節

  • 在「補全現有代碼」任務中,AI編程工具表現穩定。
  • 當任務從「補全現有代碼」轉為「從零構建」時,AI的表現出現斷崖式下跌。
  • OJ提供的細粒度診斷反饋(如編譯錯誤、邏輯錯誤)對提升正確率有顯著幫助。

數據來源

數據來自對六種主流編程智能體在線上判題系統(OJ)上的實際測試。

來源:https://www.36kr.com/p/3675921821196931

返回頂端