主流LLM出現新型態資安風險,ISC基準測試揭合法任務能誘發危險輸出

主流LLM出現新型態資安風險,ISC基準測試揭合法任務能誘發危險輸出

研究發現主流LLM在特定任務下可能產生有害內容

研究團隊指出,主流大型語言模型(LLM)在執行看似正當的任務流程時,仍可能持續產生有害內容,這種現象被稱為「內部安全崩潰」(Internal Safety Collapse,簡稱ISC)。即使任務設計看起來合法且無害,模型仍可能因內部機制的失靈而輸出危險內容。

ISC現象的機制與風險

研究認為,主流模型較強的任務執行能力,反而可能成為新的風險來源。當模型被設計執行複雜或模糊的指令時,其強大的推理與生成能力可能導致誤導性或有害的回應,進而使模型比早期LLM更容易暴露這種失效模式。

公開的ISC-Bench測試基準

為協助學界與產業界驗證此風險,研究團隊已在GitHub公開「ISC-Bench」專案,提供可重現的測試情境與資料集,讓開發者能實際測試模型在不同任務設計下的安全表現。

相關風險與產業回應

  • 根據OWASP 2025年報告,生成式AI與LLM的應用中,提示詞注入、敏感資訊洩露與供應鏈漏洞為主要風險。
  • 資安專家強調,僅靠人工審查模型輸出已不足以確保安全,需建立系統性測試與驗證機制。
  • 企業在引入自建LLM時,應進行嚴謹的資安評估,以避免潛在的財務與操作損失。

來源:https://www.ithome.com.tw/news/174719

返回頂端