Anthropic為Claude發布全新行為憲章,尋求其未來完成自我道德判斷

Anthropic為Claude發布全新行為憲章,尋求其未來完成自我道德判斷

新憲章核心內容

Anthropic 宣佈為旗下 AI 模型 Claude 發布全新行為憲章,其中詳細描述 Anthropic 對 Claude 價值觀與行為的願景。新憲章將 Claude 的「靈魂文件」從規則表升級為結合價值觀與推理的教科書,旨在讓 Claude 能變得更智慧、更安全,並能完成自我道德判斷,而非僅死守條文。

技術與哲學意義

這份「憲章」被定義為 Anthropic 對 Claude 的價值觀與行為意圖的詳細描述,並在訓練流程中發揮關鍵作用,內容會直接塑造 Claude 的行為。Anthropic 藉由將《世界人權宣言》的價值觀與道德原則融入語言模型,展現其對 AI 系統可解釋性與安全性的重視。

發展方向與未來展望

Anthropic 的這項舉動標誌著 AI 模型治理從傳統「獎勵與懲罰」的訓練方式,轉向一種「教育學」的思維。透過《Claude 憲法》的發布,Anthropic 希望建立一個具有獨立判斷能力的 AI,並透過明確原則實現自我監督,以應對黑盒模型的可控性問題。

來源:https://m.theblockbeats.info/flash/329439

返回頂端