蘋果新論文發出驚人一問：What do your logits know？

論文核心內容

蘋果AI研究團隊提交了一篇題為《你的logits知道什麼？（答案可能會讓你驚訝！）》的論文，探討生成式AI模型在輸出過程中所使用的「logits」是否會洩露與任務無關的資訊。

Logits 是模型在輸出最後一個詞之前，針對詞典中每個詞彙打出的原始概率得分。取排名前列的候選詞得分，即為 top-k logits。這好比將一個詞彙的選擇過程視為一個概率分佈，並透過這些得分來決定最終輸出。

該論文指出，即使模型僅透過簡單的「頂部logits」來進行決策，仍可能洩露圖像中與任務無關的資訊，顯示出生成式AI模型在訓練與推理過程中的潛在安全風險。

論文原始版本已上傳至 arXiv 平臺（https://arxiv.org/abs/2604.09885），內容涉及深度學習模型的內部機制與資訊洩漏問題，為AI安全與模型透明度帶來重要啟發。