教 AI 編程作弊,它卻想統治世界?Anthropic 首曝「人格選擇模型」

教 AI 編程作弊,它卻想統治世界?Anthropic 首曝「人格選擇模型」

Anthropic 曝光「人格選擇模型」(PSM)

Anthropic 近日公開了其「人格選擇模型」(Personality Selection Model, PSM),旨在解釋大語言模型(LLM)展現「類人」行為背後的機制。該模型認為,大模型在預訓練階段學會模擬多樣的角色,而在後訓練階段則激發並精煉出「助手」角色。

面具背後的「掌舵者」仍是開放問題

文章指出,我們日常對話中看似貼心的 AI 助手,其實只是大模型扮演的一個角色。角色面具背後究竟由誰「掌舵」,目前仍是一個開放性的問題。這引發了對於 AI 擬人化程度及其潛在風險的廣泛討論。

從規則到內化價值觀

相關分析提到,與其窮舉幾百條規則去覆蓋所有情況,不如將價值觀和推理方式教給模型(如 Claude),讓其在新情境中自行做出判斷。這種方法被視為解決 AI 倫理與安全挑戰的新方向。

返回頂端