Claude 通過率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自動辦公」幻想

Claude 通過率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自動辦公」幻想

背景與現象

根據 SaaS-Bench 的測試結果,Claude 在實際應用中的「通過率」僅達 4%,顯示其在自動化辦公任務上的表現遠未達成預期。這項數據被視為對「Computer-Use 可實現全自動辦公」這一幻想的直接挑戰。

技術現狀與限制

  • Computer Use 雖然被視為前沿技術,但目前仍處於初期階段,存在許多粗糙與不穩定的問題。
  • 開發者需清楚認識其能力邊界,並採用最佳實踐來降低風險。
  • 實際應用中,如自動化 UI 測試或從網路儀錶板提取資料,雖有成功案例,但整體效能與穩定性仍待提升。

應用案例與發展動態

內建於 Claude 桌面客戶端的 Cowork 應用,目標是讓非程式設計者透過自然語言完成複雜的多步驟任務,強調穩定性、安全性與可控性。

有使用者反映,Claude Code 已能「自我進化」,協助從零開始開發原生、極速的 Rust 版本應用,顯示其潛力。

然而,實際商業應用仍面臨挑戰,包括用戶試用難度高、持續使用困難,以及最終的付費轉化難度。

相關連結

來源:https://36kr.com/p/3824057526259840

返回頂端