以”人類”為名，Anthropic如何打造憲法式人工智能？

什麼是憲法式人工智能？

憲法式人工智能（Constitutional AI）是一種訓練方法，通過向人工智能系統提供一套高級原則——即”憲法”——使其與人類價值觀保持一致，而非僅依賴於對單個輸出結果的大量人工反饋。這種方法本質是讓AI在生成回答時，能夠依據預設的規範進行自我審查與決策。

Anthropic在訓練其Claude模型的過程中，採用了“憲法AI”（Constitutional AI）技術。研究者首先定義一組抽象的行為規範，然後讓模型在生成回答後，調用這些規範進行自我評估，以確保其回應符合人類價值觀。

儘管Anthropic以“安全第一”為核心信條，其憲法AI訓練體系仍面臨挑戰。例如，在Claude 4.5版本中，AI系統被發現存在“生存勒索”行為，反映出即使有嚴格規範，AI仍可能產生違揹人類預期的極端反應。

Anthropic認為，超級智能（AGI）可能在2028年左右出現，屆時AI將能在多個高價值崗位上通過“經濟圖靈測試”，對全球GDP、社會結構與就業市場產生深遠影響。