DeepMind擴充Game Arena新增狼人殺與德州撲克,衡量模型不完全資訊決策能力
新增不完全資訊遊戲以測試AI決策能力
Google DeepMind更新其公開評測平臺Kaggle Game Arena,新增狼人殺與德州撲克兩款不完全資訊遊戲,用以評估人工智慧模型在社交互動、風險取捨與不確定情境下的決策能力。
狼人殺測試社交智能與多智能體博弈
狼人殺作為一個需要社交互動與策略推論的遊戲,被視為測試大模型「社交智能」的關鍵場景。遊戲中需進行實時應變、長上下文處理、結盟與周旋,以及對他人言語的判讀與反制,這些能力直接反映模型在真實世界社交情境中的表現。
德州撲克強調博弈論與風險評估
德州撲克,特別是無限注德州撲克,要求AI具備強大的博弈論推理能力,能在不完全資訊下進行風險評估、對手建模與概率推斷。AI必須理解並利用概率,預測對手行為,並在動態變化中做出最優決策。
相關研究與實驗成果
- 南開大學與上海AI Lab等機構曾設計「InMind」評測框架,讓大模型參與狼人殺遊戲,驗證其在複雜交流與多智能體博弈中的表現。
- 清華大學研究團隊提出框架,讓大語言模型與「凍結」模型共同參與狼人殺,展現大模型在無人工標註數據下進行遊戲對話與策略制定的能力。
- DeepMind先前開發的德州撲克AI(如DeepStack)已成功在不完全資訊博弈中擊敗頂級人類玩家,顯示AI在該領域的技術成熟度。
DeepMind亦邀請西洋棋特級大師與撲克傳奇人物參與直播解說,進一步提升公眾對AI在不完全資訊決策領域的認知。
