蘋果新論文發出驚人一問:What do your logits know?
論文核心內容
蘋果AI研究團隊提交了一篇題為《你的logits知道什麼?(答案可能會讓你驚訝!)》的論文,探討生成式AI模型在輸出過程中所使用的「logits」是否會洩露與任務無關的資訊。
技術背景說明
Logits 是模型在輸出最後一個詞之前,針對詞典中每個詞彙打出的原始概率得分。取排名前列的候選詞得分,即為 top-k logits。這好比將一個詞彙的選擇過程視為一個概率分佈,並透過這些得分來決定最終輸出。
潛在影響與討論
該論文指出,即使模型僅透過簡單的「頂部logits」來進行決策,仍可能洩露圖像中與任務無關的資訊,顯示出生成式AI模型在訓練與推理過程中的潛在安全風險。
來源與延伸
論文原始版本已上傳至 arXiv 平臺(https://arxiv.org/abs/2604.09885),內容涉及深度學習模型的內部機制與資訊洩漏問題,為AI安全與模型透明度帶來重要啟發。
