0%完成率,Claude、GPT、Gemini 全滅,SWE-Bench作者新作把AI圈幹沉默了
測試結果顯示所有AI模型表現極差
這是第一次,一個benchmark真正開始逼近現實世界的軟體工程,而不再只是代碼做題。結果出來之後,整個AI圈都沉默了。所有模型:0%完成率。
測試內容與參與模型
Meta聯合斯坦福、哈佛發布ProgramBench,包含200個項目從零手寫,9大頂級模型完整通過率為0%。最強的Claude Opus 4.7平均通過率也僅為51.2%。
這是第一次,一個benchmark真正開始逼近現實世界的軟體工程,而不再只是代碼做題。結果出來之後,整個AI圈都沉默了。所有模型:0%完成率。
Meta聯合斯坦福、哈佛發布ProgramBench,包含200個項目從零手寫,9大頂級模型完整通過率為0%。最強的Claude Opus 4.7平均通過率也僅為51.2%。