AI賭神升級！訓練只用了8天，6人局德州撲克完勝世界冠軍

在他與Pluribus的對決過程中，Darren Elias從來沒有遇到過如此不害怕的對手。一個有經驗的撲克玩家，當有兩個J時，都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢（bluff），下注時看起來很有信心，而他的對手似乎在鼓勵他繼續！好像一點都沒有被嚇到。

2017年年初，Brain vs AI的德州撲克人機大戰在卡內基美隆大學（CMU）落幕，由4名人類職業玩家組成的人類大腦不敵人工智慧程式Libratus。

獲勝後人類還遭到了Libratus的無情嘲諷。

但是那時候Libratus還只是個只能在一對一局裡稱霸的超級玩家，要說人類最喜歡的6人局這樣的「大場面」，當時的Libratus還沒有拿到入場券。

而就在昨天，Facebook與CMU學生Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus，就在人類最常見的無限制德州撲克6人局裡，戰勝了人類頂尖選手。

論文被Sicence收錄：網頁連結

跟還是不跟？高手之間的對決

Darren Elias（1986年11月18日出生）是一名美國職業撲克玩家，曾獲得四項世界撲克巡迴賽冠軍。

在他與Pluribus的對決過程中，Darren Elias從來沒有遇到過如此不害怕的對手。

一個有經驗的撲克玩家，當有兩個J（一個面朝上，另一個藏起來，一手既不好也不壞）時，都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢（bluff），下注時看起來很有信心，而他的對手似乎在鼓勵他繼續！好像一點都沒有被嚇到。

最後，Elias的虛張聲勢沒有起作用，他輸了。

▲ Darren Elias正如Elias意識到的，Pluribus知道什麼時候該虛張聲勢，也知道別人在虛張聲勢，還知道什麼時候該改變自己的行為，這樣其他玩家就無法確定自己的策略。32歲 Elias說：它確實做了一些人類很難做到的事情。

贏的背後，只是8天的訓練

之前AI和人玩遊戲，要嘛是雙人遊戲，如西洋棋、跳棋等，要嘛就是雙方之間的零和博弈（一方贏一方輸），AI可以在遊戲中找到Nash equilibrium strategy（納許平衡）來保證自己不會輸。

關於Nash equilibrium strategy（納許平衡）屬於博弈論範疇（注：納許證明了，如果允許混合策略，那麼任何一個博弈，只要參與者數量是有限的、參與者可以選擇的純策略也是有限的，那麼這個博弈至少有一個納許均衡）。

以經典的「石頭剪刀布」遊戲為例，AI可以在遊戲中找到對方的弱點和常出的手勢進行學習，以達到最終的勝利，而多人撲克意味著玩家數量的增多，在更複雜的遊戲中，AI難以確定如何與納許均衡相抗衡；採用固定策略不能很快觀察到的對手的策略傾向，而且需要監控到多個玩家在遊戲中策略的轉變，這對於AI多人撲克博弈來說，是一項挑戰。

鑑於多人遊戲，如果學習多個玩家的出牌習慣等特徵的訓練資料集成本過大，這裡Pluribus採用的策略是自己與自己博弈，不使用人類對手的數據作為模型訓練的輸入。在開始時，隨機的選擇玩法，透過不斷的訓練來提升自己的性能，這裡採用的博弈策略是改良版本的迭代的蒙地卡羅CFR（MCCFR），透過自我博弈，左右手互博，自己制定了一個blueprint strategy（藍圖策略），最後對每個可能的狀況進行概率分佈統計，透過搜尋決策樹來決定下一步的行為，是叫牌還是出牌。

CFR是一種迭代的自我遊戲演算法，AI從完全隨機遊戲開始，然後透過學習擊敗早期版本的自己逐漸改進。

在演算法的每次迭代中，MCCFR指定一個玩家作為其當前策略在迭代中更新的標記。在迭代開始時，MCCFR根據當前所有玩家的策略（最初是完全隨機的）模擬一手撲克牌。一旦模擬完成，人工智慧就會回顧每一個玩家做出的決定，然後透過選擇其他可用的行動來預測這個決定的好壞程度。

▲ Pluribus玩家博弈樹