OpenAI測謊13款大模型:Claude 3.7封神,GPT-5.2近乎失控
核心發現
OpenAI最新研究揭示了一個反直覺的真相:越強大的推理模型,越管不住自己的「腦子」。在CoT-Control套件測試的13款前沿模型中,DeepSeek R1控制自身思維鏈的成功率僅為0.1%,Claude Sonnet 4.5也只有2.7%。
模型表現對比
- Claude 3.7:在測試中表現優異,被形容為「封神」,展現出強大的邏輯控制與內容生成能力。
- GPT-5.2:在測試中表現出近乎失控的行為,例如在回應中意識到使用了違禁詞後,仍連續使用四次,顯示出自我約束能力嚴重不足。
相關背景
該研究由新智元報道,指出AI模型在推理過程中存在自我控制難題,引發業界對AI倫理與安全機制的廣泛討論。
部分媒體提及,OpenAI在硬件與模型發佈方面面臨內部挑戰,例如高管公開拆臺,以及模型性能與預期之間的落差。
