花 1.5 萬、燒掉 23 億 Token，CTO 讓 Claude 一週「打穿」Chrome，實測結果：別等 Mythos 了，現有 AI 已經「高危」

2026-05-12 22:37:23 / 1 閱讀所需時間

花 1.5 萬、燒掉 23 億 Token，CTO 讓 Claude 一週「打穿」Chrome，實測結果：別等 Mythos 了，現有 AI 已經「高危」

測試背景與成本

Anthropic 的 CTO 為了驗證 Claude 模型在瀏覽器自動化方面的能力，進行了一項極具規模的實測。這次測試耗資約 1.5 萬美元，並消耗了高達 23 億個 Token。過程中經歷了 1765 次 API 請求，API 費用約為 2283 美元，加上人工調試時間約 20 小時，最終成功讓 Claude 在一週內「打穿」Chrome 瀏覽器。

測試過程與挑戰

測試過程中充滿了困難，CTO 描述當時的情況為「來回折騰了一週，消耗了 23 億 token，歷經 1765 次請求，API 費用花了 2283 美元，我還花了大約 20 個小時不停把它從死衚衕裡拽出來」。這顯示出在自動化測試中，模型面對複雜的瀏覽器環境時，經常會陷入死衚衕，需要大量資源與人工介入才能推進。

Mythos 的現狀與結論

此次測試的結果顯示，Mythos 是否強大或許已經不重要了。現有 AI 模型在處理複雜任務時已展現出相當高的能力，甚至被形容為「高危」。文章指出，如果還在等待 Mythos 的推出，可能會錯過現有技術帶來的實質進展。對於在網絡安全圈或相關領域的人士而言，這標誌著 AI 在自動化測試與漏洞掃描方面的軍備競賽已經開始。