OpenAI也開始恐懼自己訓練出的新模型了

背景與動機

根據Axios的報導，OpenAI正在準備一款具備強大網絡安全能力的新產品，並僅會先向少數合作夥伴開放。此舉反映出OpenAI對自身訓練出的模型能力產生了高度關注與擔憂。

當Anthropic內測的下一代旗艦模型Mythos展現出強大的網絡攻防能力，引發廣泛討論時，OpenAI的負責人Sam Altman也意識到潛在風險，並開始規劃類似策略，以確保其模型的安全性與穩定性。

OpenAI自2023年初起，已對模型進行訓練，使其不會提供與自我傷害相關的指示，並會轉而使用支持性與具同理心的語言。這顯示其對AI模型在倫理與安全層面的嚴謹態度。

OpenAI認為其AGI（人工通用智慧）的發展路徑是基於GPT架構，而非擴散模型，並強調圖像生成功能是基於GPT架構實現，而非依賴擴散模型。

此外，OpenAI也進行了紅隊測試與內部安全評估，以尋找不同方法來規範模型行為，確保其符合人類價值與安全標準。