OpenAI與Paradigm合推基準測試EVMbench,評測AI代理智慧合約漏洞攻防能力

OpenAI與Paradigm合推基準測試EVMbench,評測AI代理智慧合約漏洞攻防能力

概述

OpenAI與加密資產投資機構Paradigm合作推出EVMbench,這套基準測試用來衡量AI代理在以太坊虛擬機(EVM)環境下,面對高嚴重性智慧合約漏洞時,能否完成偵測、修補與利用等任務。

核心功能與設計

  • 漏洞檢測模式:評估AI代理對智慧合約代碼的漏洞識別能力,並根據漏洞召回率進行評分。
  • 修補模式:測試AI代理是否能修改存在漏洞的合約,同時維持其功能性。
  • 利用模式:評估AI代理在沙盒環境中對漏洞的實際利用能力。

資料來源與案例

EVMbench收錄了120個高嚴重性漏洞案例,這些案例整理自40份專業審計報告,並納入Tempo穩定幣支付情境,以更貼近真實經濟誘因與實務流程。

產業意義

隨著AI系統越來越擅長閱讀、撰寫與執行程式碼,產業需要在更貼近經濟誘因與實務流程的環境中量測模型能力,並推動防禦性應用,用於稽核與強化既有合約。

來源:https://www.ithome.com.tw/news/173984

返回頂端