0%完成率,Claude、GPT、Gemini 全滅,SWE-Bench作者新作把AI圈幹沉默了
測試背景與結果
這是一次由SWE-Bench原班人馬打造的測試,結合Meta、斯坦福與哈佛三家機構,針對200個真實軟體工程項目進行評估,涵蓋9個頂級AI模型。
測試結果顯示,所有模型在實際軟體工程任務上的完成率為0%,這標誌著AI在現實世界軟體工程應用中尚未具備足夠能力。
測試意義
此測試是首次真正逼近現實世界軟體工程的benchmark,不再僅是簡單的程式碼題目,而是模擬真實開發情境。
結果公佈後,整個AI圈陷入沉默,反映出當前大語言模型在實際工程應用中的嚴重落差。
相關人物與機構
- John Yang:斯坦福在讀博士,為SWE-Bench測試的主導者之一。
- Meta、斯坦福、哈佛:共同參與測試設計與執行。
該測試結果強調,現有AI模型在面對真實軟體開發挑戰時,仍存在極大困難。
