Claude 通過率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自動辦公」幻想

背景與現象

根據 SaaS-Bench 的測試結果，Claude 在實際應用中的「通過率」僅達 4%，顯示其在自動化辦公任務上的表現遠未達成預期。這項數據被視為對「Computer-Use 可實現全自動辦公」這一幻想的直接挑戰。

內建於 Claude 桌面客戶端的 Cowork 應用，目標是讓非程式設計者透過自然語言完成複雜的多步驟任務，強調穩定性、安全性與可控性。

有使用者反映，Claude Code 已能「自我進化」，協助從零開始開發原生、極速的 Rust 版本應用，顯示其潛力。

然而，實際商業應用仍面臨挑戰，包括用戶試用難度高、持續使用困難，以及最終的付費轉化難度。