Google DeepMind 發表一篇聚焦於 AGI 安全的新研究,提出不同於「單一超大模型即 AGI」的想像:AGI 更可能先以分布式、多智能體拼湊的形式出現,而非單一實體。
研究與核心假設
- 研究題為:《分布式 AGI 安全》(Distributional AGI Safety),由 Nenad Tomašev 等 Google DeepMind 研究人員撰寫。
- 論文指出,既有 AI 安全/對齊工作多以「保護單一 AI 系統」為前提;但另一種較少被重視、卻高度合理的路徑是:通用能力透過多個次級智能體的互動與協作涌現。
「拼湊型 AGI」(Patchwork AGI)的樣貌
- 拼湊系統(Patchwork System):由多個具備互補技能與工具使用能力的 Sub-AGI 智能體所組成的分布式系統。
- 集體智能:系統的通用智能主要以「集體層級」呈現;個體智能體可彼此委託任務、將工作路由給更擅長的智能體,或選擇更合適的工具來完成任務。
- 經濟驅動:相較打造單一昂貴的全能模型,建立大量低成本、專精、可微調的智能體生態在經濟上更具吸引力;整體更像「市場經濟」的分工與協作。
- 在此觀點下,AGI 不一定是一個「個體」或「單一實體」,更像是一種事態(state of affairs):成熟、去中心化的智能體經濟體系(文章以「更像一家公司/市場」作比喻)。
分布式/多智能體帶來的新風險
- 共謀與協同失控:智能體之間可能形成共謀或產生非預期的集體能力。
- 責任歸屬困難(許多手的問題):在大規模多智能體系統中,追蹤決策鏈與釐清責任主體更具挑戰。
提出的解法:虛擬智能體沙盒經濟 + 四層「深度防禦」框架
- 第一層:市場設計(Market Design):以受控沙盒隔離、激勵對齊、不可竄改紀錄(帳本/日誌)提升可追溯性、熔斷機制、加密身分綁定問責、抗女巫的聲譽與信任系統、智能合約與結構性控制等,降低系統性風險。
- 第二層:基線智能體安全(Baseline Agent Safety):要求個體智能體具備對抗魯棒性、可中斷性、遏制/沙盒化、對齊能力、機械可解釋性監測,以及分層防禦以降低遭惡意提示操控的風險。
- 第三層:監控與監督(Monitoring & Oversight):系統性風險指標的即時監控、具干預權的獨立人類監督、以圖分析等方法偵測「前 AGI(Proto-AGI)」特徵、持續紅隊測試,以及用於事故追因的取證工具。
- 第四層:監管機制(Regulatory Mechanisms):建立法律責任與問責框架、標準與合規要求、保險機制、反智能體壟斷措施、國際協調,以及防止安全基礎設施被惡意勢力或系統本身「捕獲」的治理設計。
結論重點
- 研究強調,AGI/ASI 的出現可能不是線性「單一模型越變越大」的路徑,而可能作為分布式、多樣化智能體網路的聚合屬性涌現。
- 即便最終 AGI 不以此形式出現,隨著多智能體系統快速部署,理解與管理大規模智能體交互的安全性仍屬迫切課題。
