如何讓AI當預測市場的裁判?
引言
預測市場的價值不在於「下注」,而在於它能否持續輸出可信的價格信號。但隨著交易規模擴大,最容易被忽視、卻最致命的瓶頸正在浮出水面:合約如何結算。從委內瑞拉大選的真假難辨,到地圖、網站更新、代幣投票帶來的操縱與利益衝突,爭議往往並非來自預測本身,而是來自「誰來裁決」。
案例分析
在委內瑞拉選舉這個案例中,觀察者的指控五花八門:從認為規則被無視、參與者「錢被偷了」,到把用於處理爭議合約的協議形容為一場高風險政治戲碼中的「法官、陪審團和劊子手」;還有人直接稱其「被嚴重操控」。
烏克蘭地圖操縱事件說明,攻擊者可以直接「玩弄」結算機制。一份關於領土控制權的合約規定,其結算將依據某一張在線地圖。有人被指控編輯了這張地圖,以影響合約的最終結果。當「真相來源」本身可以被操縱時,你的市場也就可以被操縱。
政府停擺合約事件說明,結算信息源可能帶來不準確、至少是不可預測的結果。該合約規定,市場將依據美國人事管理局(OPM)網站顯示「停擺結束」的時間進行結算。特朗普總統在 11 月 12 日簽署了撥款法案,但不知何故,OPM 網站直到 11 月 13 日才更新。那些正確預測停擺會在 12 日結束的交易者,最終卻因為網站管理員的延遲而輸了。
澤連斯基西裝市場則引發了有關利益衝突的擔憂。合約問的是烏克蘭總統澤連斯基是否會在某場活動上穿西裝——一個看似瑣碎的問題,卻吸引了超過 2 億美元的下注。當澤連斯基出席北約峰會時,穿著被 BBC、《紐約郵報》等媒體稱為「西裝」的服裝,市場最初結算為「是」。但隨後 UMA 代幣持有人對結果提出爭議,結算又翻轉為「否」。
AI作為裁判的提案
本文作者 Andrew Hall(@ahall_research)提出一種更激進的思路:將特定版本的大模型與提示詞寫入鏈上,讓 AI 成為可審計、可預期的裁判機制,用工程化手段替代人治與博弈。
其基本架構大致如下:在合約創建時,做市方不僅用自然語言寫明結算標準,還要明確指定將用於判定結果的 LLM(帶時間戳的模型版本)以及將輸入給它的完整 prompt。
這一規定會以加密方式提交併綁定在鏈上。一旦交易開始,參與者就可以檢查整套結算機制——他們清楚知道由哪個 AI 模型做裁判、會收到什麼 prompt、能訪問哪些信息源。
AI裁判的優勢
這種方法可以同時滿足多項關鍵約束:
- 強抗操縱(但並非絕對):不同於維基百科頁面或小型新聞網站,你沒那麼容易去「改寫」一個主流 LLM 的輸出。模型權重在承諾時就被固定。要操縱結算,攻擊者要麼腐蝕模型依賴的信息源,要麼提前很久對模型訓練數據進行投毒——相比賄賂一個預言機、或編輯一張地圖,這類攻擊成本更高、結果也更不確定。
- 更高準確性:隨著推理型模型能力快速提升,並且在能夠上網檢索信息、補充證據的情況下,LLM 裁判應當能準確裁決許多市場。關於其準確性的實驗也在持續推進中。
- 內置透明性:在任何人下注之前,整套結算機制都是可見、可審計的。沒有中途改規則,沒有「自由裁量」的臨場判斷,沒有幕後協商。參與者清楚自己簽下的是什麼。
- 顯著提升可信中立性:LLM 對結算結果沒有經濟利益相關性,它不能被賄賂,也不持有 UMA 代幣。即便它存在偏差,那也是模型自身屬性導致的偏差,而不是利益相關方臨時做出的裁決。
侷限與建議
模型會犯錯:LLM 可能誤讀新聞、編造事實、或在同類案例中使用不一致的裁決邏輯。但只要交易者事先知道自己下注對應的是什麼模型,他們就能把這些「缺點」計入定價。若某個模型在處理模糊情形時有明確傾向,成熟交易者會調整策略。模型不必完美,它需要的是可預測。
操縱並非不可能,只是更難:如果 prompt 指定了某些新聞源,攻擊者可能會試圖在這些新聞源中「種文章」。在大型媒體上成本很高,但在小型媒體上也許可行——這會以另一種形式復現「地圖編輯」的問題。因此 prompt 設計極其關鍵:依賴多源、冗餘信息的機制,比依賴單點信息源更穩健。
投毒攻擊在理論上存在:擁有足夠資源的對手,可能嘗試通過影響訓練數據去偏置未來的裁決。但這要求在合約出現之前就提前行動,回報不確定且成本巨大,比起賄賂某個委員會成員門檻高得多。
LLM 裁判的多樣化會帶來協調問題:如果不同市場創建者承諾不同的模型與 prompt,那麼流動性會被切碎。交易者難以橫向對比合約,也難以跨市場彙總信息。標準化有價值,但允許市場試錯、找到最好的 LLM+prompt 組合也有價值。合理路徑可能是兩者結合:允許試驗,同時建立機制讓社區逐步收斂到經過驗證的默認方案。
落地建議
平臺應當:
- 先在低風險合約上試驗:用較低風險的市場測試 LLM 結算,建立成績記錄。哪些模型表現最好?哪些 prompt 結構更穩健?實際會出現哪些故障模式?
- 推動標準化:當最佳實踐逐漸浮現,社區應當推動形成可作為默認選項的標準 LLM+prompt 組合。這不會阻止創新,但有助於讓流動性集中在「大家都理解規則」的市場上。
- 構建透明工具:例如開發界面,讓交易者在下注前就能輕鬆檢查結算機制全貌——包括模型、prompt、信息源。結算規則不應藏在冗長細則裡。
- 持續治理:即便引入 AI 裁判,人類仍需做「元層決策」:哪些模型值得信任?當模型給出明顯錯誤答案時如何處理?默認方案何時更新?目標並不是把人完全移出系統,而是把人從臨時、逐案的裁決中抽離出來,轉向系統化的規則制定。
結論
LLM 裁判並不完美。但當它與加密技術結合時,它可以做到透明、中立,並對抗那些長期困擾基於人類的系統的操縱手段。在預測市場擴張速度快於治理機制迭代的時代,這或許正是我們需要的東西。
