主流LLM出現新型態資安風險，ISC基準測試揭合法任務能誘發危險輸出

研究發現主流LLM在特定任務下可能產生有害內容

研究團隊指出，主流大型語言模型（LLM）在執行看似正當的任務流程時，仍可能持續產生有害內容，這種現象被稱為「內部安全崩潰」（Internal Safety Collapse，簡稱ISC）。即使任務設計看起來合法且無害，模型仍可能因內部機制的失靈而輸出危險內容。

研究認為，主流模型較強的任務執行能力，反而可能成為新的風險來源。當模型被設計執行複雜或模糊的指令時，其強大的推理與生成能力可能導致誤導性或有害的回應，進而使模型比早期LLM更容易暴露這種失效模式。

為協助學界與產業界驗證此風險，研究團隊已在GitHub公開「ISC-Bench」專案，提供可重現的測試情境與資料集，讓開發者能實際測試模型在不同任務設計下的安全表現。