0%完成率,Claude、GPT、Gemini 全滅,SWE-Bench作者新作把AI圈幹沉默了

0%完成率,Claude、GPT、Gemini 全滅,SWE-Bench作者新作把AI圈幹沉默了

測試背景與結果

這是一次由SWE-Bench原班人馬打造的測試,結合Meta、斯坦福與哈佛三家機構,針對200個真實軟體工程項目進行評估,涵蓋9個頂級AI模型。

測試結果顯示,所有模型在實際軟體工程任務上的完成率為0%,這標誌著AI在現實世界軟體工程應用中尚未具備足夠能力。

測試意義

此測試是首次真正逼近現實世界軟體工程的benchmark,不再僅是簡單的程式碼題目,而是模擬真實開發情境。

結果公佈後,整個AI圈陷入沉默,反映出當前大語言模型在實際工程應用中的嚴重落差。

相關人物與機構

  • John Yang:斯坦福在讀博士,為SWE-Bench測試的主導者之一。
  • Meta、斯坦福、哈佛:共同參與測試設計與執行。

該測試結果強調,現有AI模型在面對真實軟體開發挑戰時,仍存在極大困難。

來源:https://36kr.com/p/3798593895930888

返回頂端