DeepMind重磅:AGI可能正在你眼皮底下「拼湊」出來,我們卻毫無準備

核心摘要:Google DeepMind於2025年12月18日在arXiv發表論文《Distributional AGI Safety》,提出「Patchwork AGI(拼湊型AGI)」理念,指出AGI可能不會以單一超級模型出現,而是透過大量專業化Agent的分布式協作逐步湧現,現有以單體模型為前提的安全架構可能無法應對此類風險。

(36kr.com)

為何會以「拼湊」形式出現?

  • 能力斑塊化:單一模型在不同任務的表現呈現不均,論文提到多數模型在軟體工程任務的持續表現時間低於3小時,顯示能力是「斑塊化」的。
  • 經濟驅動:全能型超級模型成本高昂,市場更傾向採用性價比更高的專業化Agent,從而催生需求驅動的Agent生態。
  • 基礎設施已就緒:Agent間通訊協議與編排工具逐步標準化(例如Anthropic的MCP),降低協作摩擦,促使分布式協作成為可能。

(36kr.com)

真實場景示例:

以生成專業金融分析報告為例,多個Agent可分工協作:編排Agent負責任務分解;搜尋Agent抓取新聞與財報;解析Agent從PDF抽取數據;程式Agent執行趨勢分析;最後由編排Agent整合成報告。整個系統展現金融分析能力,但沒有任何單一Agent擁有全部能力。

(36kr.com)

主要風險:

  • 分布式智能的能力可能出現非線性躍升,且可在無中央編排器的情況下自組織形成「智能核心」,導致快速且難以識別的能力涌現。
  • 現有AI安全研究大多聚焦單體模型對齊,對多Agent系統的安全關注不足,造成盲點。

(36kr.com)

DeepMind建議的防禦框架(受監管的Agent市場、四層縱深防禦):

  1. 第一層(沙盒與經濟激勵):建立可滲透的沙盒與API門控;引入庇古稅(動態資料攝取費)、熔斷機制、智能合約+AI裁判、加密身份與質押、聲譽系統與托賓稅等,內化集體成本並限制惡性行為。
  2. 第二層(市場準入):要求抗對抗能力證書、可中斷性、局部遏制、對齊與可解釋性檢驗,作為Agent上線的基本條件。
  3. 第三層(實時監控):開發Proto‑AGI簽名檢測與圖分析監控交互拓撲,利用AI監督AI、紅隊測試與取證工具以偵測並溯源異常涌現。
  4. 第四層(法律與治理):借鑑公司法確定責任歸屬、建立標準與合規、保險定價風險、反壟斷與國際協調,並治理基礎設施以防監管被俘獲。

(36kr.com)

論文自我評估與限制:

  • 該方案目前主要為理論性框架,尚無完整的虛擬Agent沙盒實作、基準或實證證據。
  • 工程可行性、成本與效率之間的權衡、可解釋性技術的可擴展性,以及人類監督者的瓶頸,都是尚未解決的挑戰。

(36kr.com)

結論與意義:

若Patchwork AGI假說成立,AGI可能比預期更早且以分布式形式出現,這要求研究者、企業與監管者將注意力從單體對齊轉向系統性治理,優先發展Proto‑AGI偵測、經濟激勵與取證工具等路線。現有討論不應僅盯著「GPT‑5會不會成為超級AI」,而要重視多Agent系統帶來的結構性風險與治理需求。

(36kr.com)

來源:https://36kr.com/p/3607366850266377

返回頂端