0%完成率，Claude、GPT、Gemini 全滅，SWE-Bench作者新作把AI圈幹沉默了

2026-05-07 13:27:50 / 1 閱讀所需時間

0%完成率，Claude、GPT、Gemini 全滅，SWE-Bench作者新作把AI圈幹沉默了

測試背景與結果

這是一次由SWE-Bench原班人馬打造的測試，結合Meta、斯坦福與哈佛三家機構，針對200個真實軟體工程項目進行評估，涵蓋9個頂級AI模型。

測試結果顯示，所有模型在實際軟體工程任務上的完成率為0%，這標誌著AI在現實世界軟體工程應用中尚未具備足夠能力。

測試意義

此測試是首次真正逼近現實世界軟體工程的benchmark，不再僅是簡單的程式碼題目，而是模擬真實開發情境。

結果公佈後，整個AI圈陷入沉默，反映出當前大語言模型在實際工程應用中的嚴重落差。

相關人物與機構

John Yang：斯坦福在讀博士，為SWE-Bench測試的主導者之一。
Meta、斯坦福、哈佛：共同參與測試設計與執行。

該測試結果強調，現有AI模型在面對真實軟體開發挑戰時，仍存在極大困難。

來源：https://36kr.com/p/3798593895930888