0%完成率，Claude、GPT、Gemini 全滅，SWE-Bench作者新作把AI圈幹沉默了

測試結果顯示所有AI模型表現極差

這是第一次，一個benchmark真正開始逼近現實世界的軟體工程，而不再只是代碼做題。結果出來之後，整個AI圈都沉默了。所有模型：0%完成率。

Meta聯合斯坦福、哈佛發布ProgramBench，包含200個項目從零手寫，9大頂級模型完整通過率為0%。最強的Claude Opus 4.7平均通過率也僅為51.2%。