OpenAI與Paradigm合推基準測試EVMbench，評測AI代理智慧合約漏洞攻防能力

概述

OpenAI與加密資產投資機構Paradigm合作推出EVMbench，這套基準測試用來衡量AI代理在以太坊虛擬機（EVM）環境下，面對高嚴重性智慧合約漏洞時，能否完成偵測、修補與利用等任務。

EVMbench收錄了120個高嚴重性漏洞案例，這些案例整理自40份專業審計報告，並納入Tempo穩定幣支付情境，以更貼近真實經濟誘因與實務流程。

隨著AI系統越來越擅長閱讀、撰寫與執行程式碼，產業需要在更貼近經濟誘因與實務流程的環境中量測模型能力，並推動防禦性應用，用於稽核與強化既有合約。