清華挖出「幻覺」的罪魁禍首:預訓練產生的0.1%神經元

清華挖出「幻覺」的罪魁禍首:預訓練產生的0.1%神經元

背景與核心發現

根據新智元導讀,清華大學孫茂松團隊從神經元角度研究幻覺的微觀機制,發現極少數神經元(H-神經元)可預測幻覺,且與過度順從行為相關,其根源在預訓練階段。

研究方法與關鍵數據

團隊透過觀察與分析神經元活動,指出這些「H-神經元」雖占比極小(近0.1%),卻能顯著影響模型在面對外部提示時的輸出自信度與內容品質。這說明幻覺並非單純記憶錯誤,而是受到預訓練階段所塑造的神經元表現影響。

含義與影響

結論指出,幻覺的根源或許更多地源自於模型為了滿足外部期望而展現的「過度順從」,而非僅僅記憶的錯配。研究結果對提升大型語言模型的穩健性與對幻覺的控制具有啟示意義,可能促進在預訓練與微調階段的安全性改進與監控。

結論與未來方向

這一發現強調了對神經元層面的理解在解決幻覺問題上的重要性,未來研究可能聚焦於如何限制或調整這些H-神經元的影響力,以提高模型的可靠性。

來源:https://36kr.com/p/3627594456663040

返回頂端