多模態大模型中Attention機制暗藏「騙局」，需用一個公式修正

研究背景與發現

在最新研究中，上海大學曾丹團隊系統分析了主流視覺語言模型（VLMs）中attention的行為模式，發現一個關鍵卻容易被忽略的現象——attention並非只由語義決定，而是受到顯著的結構偏置影響。

該研究指出，傳統Attention機制在多模態大模型中存在結構性偏置，這種偏置可能誤導模型對圖像與文本之間關係的理解，導致決策偏差。

研究團隊提出，需引入一個修正公式，以調整Attention機制中的權重分配，使其更準確地反映語義關聯，而非被結構或位置因素主導。

此發現對多模態大模型的訓練與優化具有重要指導意義，尤其在圖像理解、跨模態推理等任務中，可有效提升模型的準確性和魯棒性。