花 1.5 萬、燒掉 23 億 Token,CTO 讓 Claude 一週「打穿」Chrome,實測結果:別等 Mythos 了,現有 AI 已經「高危」
測試背景與成本
Anthropic 的 CTO 為了驗證 Claude 模型在瀏覽器自動化方面的能力,進行了一項極具規模的實測。這次測試耗資約 1.5 萬美元,並消耗了高達 23 億個 Token。過程中經歷了 1765 次 API 請求,API 費用約為 2283 美元,加上人工調試時間約 20 小時,最終成功讓 Claude 在一週內「打穿」Chrome 瀏覽器。
測試過程與挑戰
測試過程中充滿了困難,CTO 描述當時的情況為「來回折騰了一週,消耗了 23 億 token,歷經 1765 次請求,API 費用花了 2283 美元,我還花了大約 20 個小時不停把它從死衚衕裡拽出來」。這顯示出在自動化測試中,模型面對複雜的瀏覽器環境時,經常會陷入死衚衕,需要大量資源與人工介入才能推進。
Mythos 的現狀與結論
此次測試的結果顯示,Mythos 是否強大或許已經不重要了。現有 AI 模型在處理複雜任務時已展現出相當高的能力,甚至被形容為「高危」。文章指出,如果還在等待 Mythos 的推出,可能會錯過現有技術帶來的實質進展。對於在網絡安全圈或相關領域的人士而言,這標誌著 AI 在自動化測試與漏洞掃描方面的軍備競賽已經開始。
