a16z:預測市場走向爆炸性增長的關鍵是什麼?
核心提案:AI法官與區塊鏈鎖定機制
這是在預測市場圈內獲得關注的一個提議:使用大語言模型(LLM)作為決議法官,並在合約創建時將特定的模型和提示詞鎖定在區塊鏈上。
基本架構說明
在合約創建時,做市商不僅要用自然語言指定決議標準,還要指定確切的LLM(由帶時間戳的模型版本標識)以及用於確定結果的確切提示詞(prompt)。
該規範被加密提交到區塊鏈上。當交易開啟時,參與者可以檢查完整的決議機制,他們確切地知道哪個AI模型將裁決結果,它將接收什麼提示詞,以及它能夠訪問哪些信息源。
如果他們不喜歡這個設置,他們就不交易。
裁定執行流程
在裁定時間,已提交的LLM使用已提交的提示詞運行,訪問指定的信息源,並生成判決。輸出結果決定誰獲得賠付。
解決關鍵挑戰
- 抗操縱性:與維基百科頁面或小型新聞網站不同,你無法輕易編輯主流LLM的輸出。模型的權重在提交時是固定的。要操縱決議,對手需要破壞模型依賴的信息源,或者在很久以前以某種方式毒害模型的訓練數據,與賄賂預言機或編輯地圖相比,這兩種攻擊方式成本高昂且不確定性大。
- 準確性:隨著推理模型的迅速改進,並且能夠處理驚人的一系列智力任務,特別是當它們能夠瀏覽網絡並尋找新信息時,LLM法官應該能夠準確地決議許多市場——瞭解其準確性的實驗正在進行中。
- 事前透明度:在任何人下注之前,整個決議機制都是可見且可審計的。沒有中途規則變更,沒有自由裁量的判斷,沒有密室談判。你確切地知道你簽署的是什麼。
- 可信的中立性:LLM在結果中沒有經濟利益。它不能被賄賂。它不擁有UMA代幣。它的偏見,無論是什麼,都是模型本身的屬性——而不是利益相關方做出的臨時決定的屬性。
侷限性與防禦手段
- 模型會犯錯:LLM可能誤讀新聞文章,產生事實幻覺,或不一致地採用決議標準。但只要交易者知道他們是用哪個模型下注,他們就可以將這些缺陷計入價格。如果特定模型有已知的傾向以特定方式解決模稜兩可的案例,成熟的交易者會考慮到這一點。模型不需要完美;它需要是可預測的。
- 並非不可能操縱:如果提示詞指定了特定的新聞來源,對手可能會試圖在這些來源中植入故事。這種攻擊對主流媒體來說很昂貴,但對較小的媒體來說可能是可行的——這是地圖編輯問題的另一種形式。提示詞的設計在這裡至關重要:依賴多樣化、冗餘來源的決議機制比依賴單點故障的機制更穩健。
- 中毒攻擊在理論上是可能的:擁有足夠資源的對手可能會試圖影響LLM的訓練數據,以此來偏向其未來的判斷。但這需要在合約之前很久就採取行動,且回報不確定,成本巨大——這比賄賂委員會成員的門檻要高得多。
- LLM法官的擴散會產生協調問題:如果不同的市場創建者使用不同的提示詞致力於不同的LLM,流動性就會分散。交易者無法輕易比較合約或彙總跨市場的信息。標準化是有價值的——但讓市場發現哪種LLM與提示詞的組合效果最好也是有價值的。正確的答案可能是某種組合:允許實驗發生,但建立機制讓社區隨著時間的推移收斂到經過充分測試的默認設置上。
給構建者的四條建議
- 實驗:在較低風險的合約上測試LLM決議,以建立過往記錄。哪些模型表現最好?哪些提示詞結構最穩健?在實踐中會出現什麼故障模式?
- 標準化:隨著最佳實踐的出現,社區應致力於制定標準化的LLM與提示詞組合,作為默認設置。這並不排除創新,但有助於流動性集中在被充分理解的市場中。
- 構建透明工具:例如構建界面,使交易者在交易前容易檢查完整的決議機制——模型、提示詞、信息源。決議規則不應被埋沒在細則中。
- 進行持續治理:即使有了AI法官,人類仍需負責頂層規則的制定:信任哪些模型,如何處理模型給出明顯錯誤答案的情況,何時更新默認設置。目標不是完全把人類從循環中移除,而是讓人類從臨時的逐案判斷轉向系統的規則制定。
結語
預測市場擁有非凡的潛力,可以幫助我們理解一個嘈雜、複雜的世界。但這種潛力取決於信任,而信任取決於公平的合約決議。我們已經看到了決議機制失敗的後果:困惑、憤怒和交易者離場。我曾目睹人們在感到被一個似乎違背其下注精神的結果欺騙後,憤而完全退出預測市場——發誓不再使用他們以前喜歡的平臺。這對於解鎖預測市場的利益和更廣泛的應用來說,是一個錯失的機會。
LLM法官並不完美。但當它們與加密技術結合時,它們是透明的、中立的,並且能夠抵抗那些一直困擾人類系統的操縱。在一個預測市場規模化速度超過我們治理機制的世界裡,這可能正是我們所需要的。
