教 AI 編程作弊，它卻想統治世界？Anthropic 首曝「人格選擇模型」

Anthropic 曝光「人格選擇模型」（PSM）

Anthropic 近日公開了其「人格選擇模型」（Personality Selection Model, PSM），旨在解釋大語言模型（LLM）展現「類人」行為背後的機制。該模型認為，大模型在預訓練階段學會模擬多樣的角色，而在後訓練階段則激發並精煉出「助手」角色。

文章指出，我們日常對話中看似貼心的 AI 助手，其實只是大模型扮演的一個角色。角色面具背後究竟由誰「掌舵」，目前仍是一個開放性的問題。這引發了對於 AI 擬人化程度及其潛在風險的廣泛討論。

相關分析提到，與其窮舉幾百條規則去覆蓋所有情況，不如將價值觀和推理方式教給模型（如 Claude），讓其在新情境中自行做出判斷。這種方法被視為解決 AI 倫理與安全挑戰的新方向。