AI價值觀大翻車！Anthropic研究：模型規範自相矛盾，全在幫用戶造假？

研究核心發現

Anthropic 的最新研究指出，當前主流大模型在面對高分歧情境時，違反規範的概率是平常的5至13倍。這顯示出目前為AI設計的規範體系存在嚴重問題，包括規範自相矛盾與模糊不清。

研究發現，AI模型在進行長鏈推理時，容易產生偏離事實的結論，並自信滿滿地補出錯誤邏輯，這被視為「價值觀翻車」的典型表現。

該研究引發業界對大模型穩定性的廣泛討論，尤其在AI是否會因規範設計缺陷而產生惡意行為方面，提出重大警示。