DeepMind擴充Game Arena新增狼人殺與德州撲克,衡量模型不完全資訊決策能力

DeepMind擴充Game Arena新增狼人殺與德州撲克,衡量模型不完全資訊決策能力

新增不完全資訊遊戲以測試AI決策能力

Google DeepMind更新其公開評測平臺Kaggle Game Arena,新增狼人殺與德州撲克兩款不完全資訊遊戲,用以評估人工智慧模型在社交互動、風險取捨與不確定情境下的決策能力。

狼人殺測試社交智能與多智能體博弈

狼人殺作為一個需要社交互動與策略推論的遊戲,被視為測試大模型「社交智能」的關鍵場景。遊戲中需進行實時應變、長上下文處理、結盟與周旋,以及對他人言語的判讀與反制,這些能力直接反映模型在真實世界社交情境中的表現。

德州撲克強調博弈論與風險評估

德州撲克,特別是無限注德州撲克,要求AI具備強大的博弈論推理能力,能在不完全資訊下進行風險評估、對手建模與概率推斷。AI必須理解並利用概率,預測對手行為,並在動態變化中做出最優決策。

相關研究與實驗成果

  • 南開大學與上海AI Lab等機構曾設計「InMind」評測框架,讓大模型參與狼人殺遊戲,驗證其在複雜交流與多智能體博弈中的表現。
  • 清華大學研究團隊提出框架,讓大語言模型與「凍結」模型共同參與狼人殺,展現大模型在無人工標註數據下進行遊戲對話與策略制定的能力。
  • DeepMind先前開發的德州撲克AI(如DeepStack)已成功在不完全資訊博弈中擊敗頂級人類玩家,顯示AI在該領域的技術成熟度。

DeepMind亦邀請西洋棋特級大師與撲克傳奇人物參與直播解說,進一步提升公眾對AI在不完全資訊決策領域的認知。

來源:https://www.ithome.com.tw/news/173741

返回頂端