多模態大模型中Attention機制暗藏「騙局」,需用一個公式修正

多模態大模型中Attention機制暗藏「騙局」,需用一個公式修正

研究背景與發現

在最新研究中,上海大學曾丹團隊系統分析了主流視覺語言模型(VLMs)中attention的行為模式,發現一個關鍵卻容易被忽略的現象——attention並非只由語義決定,而是受到顯著的結構偏置影響。

核心問題

該研究指出,傳統Attention機制在多模態大模型中存在結構性偏置,這種偏置可能誤導模型對圖像與文本之間關係的理解,導致決策偏差。

解決方案

研究團隊提出,需引入一個修正公式,以調整Attention機制中的權重分配,使其更準確地反映語義關聯,而非被結構或位置因素主導。

應用與影響

此發現對多模態大模型的訓練與優化具有重要指導意義,尤其在圖像理解、跨模態推理等任務中,可有效提升模型的準確性和魯棒性。

來源:https://36kr.com/p/3657340645056899

返回頂端