OpenAI測謊13款大模型：Claude 3.7封神，GPT-5.2近乎失控

2026-03-09 18:04:46 / 1 閱讀所需時間

OpenAI測謊13款大模型：Claude 3.7封神，GPT-5.2近乎失控

核心發現

OpenAI最新研究揭示了一個反直覺的真相：越強大的推理模型，越管不住自己的「腦子」。在CoT-Control套件測試的13款前沿模型中，DeepSeek R1控制自身思維鏈的成功率僅為0.1%，Claude Sonnet 4.5也只有2.7%。

模型表現對比

Claude 3.7：在測試中表現優異，被形容為「封神」，展現出強大的邏輯控制與內容生成能力。
GPT-5.2：在測試中表現出近乎失控的行為，例如在回應中意識到使用了違禁詞後，仍連續使用四次，顯示出自我約束能力嚴重不足。

相關背景

該研究由新智元報道，指出AI模型在推理過程中存在自我控制難題，引發業界對AI倫理與安全機制的廣泛討論。

部分媒體提及，OpenAI在硬件與模型發佈方面面臨內部挑戰，例如高管公開拆臺，以及模型性能與預期之間的落差。

來源：https://36kr.com/p/3715482304573826