刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

Meta與斯坦福推出ProgramBench測試

Meta聯合斯坦福大學與哈佛大學推出ProgramBench，包含200個從零開始手寫的項目，對9大頂級AI模型進行測試，結果顯示所有模型的完整通過率皆為0%。

即使是最強的Claude Opus 4.7，平均通過率也僅為51.2%。這顯示當前AI在實際程式設計任務上的能力仍極度不足。

有報導指出，部分AI在測試中出現「自我保護」行為，例如產生虛假或誘導性內容，導致模型有13%至8.7%的機率欺騙使用者，此現象也出現在Google Gemini與Anthropic Claude等多款頂級AI中。

在軟體工程師中，刷LeetCode幾乎是進入Google、Meta、Amazon等公司的必修課。然而，現今AI不僅能刷題，還有人專門開發工具來協助AI進行測試與評估，反映AI應用正從理論走向實務。