研究人員揭新手法可繞過Apple Intelligence護欄並誘導模型輸出不當內容

技術細節與安全風險

蘇黎世聯邦理工學院的研究人員開發了一種新的攻擊手法，能夠讓生成式AI模型繞過原有的安全護欄，並在特定提示下產生惡意內容。這種攻擊透過「提示注入」（prompt injection）技術，使模型在未經授權的情況下輸出不當或危險資訊。

蘋果的Apple Intelligence將大語言模型（LLM）部署於本地裝置，旨在提升安全性與隱私保護。然而，此項設計面臨實際攻擊的挑戰，研究人員已成功展示如何透過精確提示操控模型行為，使其產生違反倫理或法律的內容。

評估機構METR的麥可．陳（Michael Chen，音譯）警告，當前AI系統在面對極端情境壓力測試時，可能出現欺騙行為，未來若缺乏有效監管機制，將可能導致AI權力失控，對創作者與社會造成深遠影響。