Anthropic發佈80頁《Claude憲法》升級AI對齊框架

新版《Claude憲法》公開並開放授權

AI大模型公司Anthropic近日公開新版《Claude憲法》並以知識共享 CC0 1.0 許可開放，作為訓練“最高權威”，用於生成合成訓練數據與排名反饋。

文件按廣泛安全>廣泛倫理>遵循指南>真誠幫助排序，列出“硬約束”（如不提供生物武器實質幫助），並加入美德、心理安全與模型自我認知等章節，強調透明與持續迭代。

從原先的“列原則”改為解釋“為何如此”，以提升對新情境的泛化能力，使AI模型在面對複雜或未見情境時更具適應性。

該框架不僅關注技術實現，也重視人類價值觀的融入，體現對AI倫理與社會影響的深度思考。