AI賭神升級!訓練只用了8天,6人局德州撲克完勝世界冠軍

AI賭神升級!訓練只用了8天,6人局德州撲克完勝世界冠軍

在他與Pluribus的對決過程中,Darren Elias從來沒有遇到過如此不害怕的對手。一個有經驗的撲克玩家,當有兩個J時,都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢(bluff),下注時看起來很有信心,而他的對手似乎在鼓勵他繼續!好像一點都沒有被嚇到。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

2017年年初,Brain vs AI的德州撲克人機大戰在卡內基美隆大學(CMU)落幕,由4名人類職業玩家組成的人類大腦不敵人工智慧程式Libratus。

獲勝後人類還遭到了Libratus的無情嘲諷。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

但是那時候Libratus還只是個只能在一對一局裡稱霸的超級玩家,要說人類最喜歡的6人局這樣的「大場面」,當時的Libratus還沒有拿到入場券。

而就在昨天,Facebook與CMU學生Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人類最常見的無限制德州撲克6人局裡,戰勝了人類頂尖選手。

論文被Sicence收錄:網頁連結

跟還是不跟?高手之間的對決

Darren Elias(1986年11月18日出生)是一名美國職業撲克玩家,曾獲得四項世界撲克巡迴賽冠軍。

在他與Pluribus的對決過程中,Darren Elias從來沒有遇到過如此不害怕的對手。

一個有經驗的撲克玩家,當有兩個J(一個面朝上,另一個藏起來,一手既不好也不壞)時,都會謹慎行事。但是Elias的對手看起來好像不知道該怎麼做。即使當Elias決定虛張聲勢(bluff),下注時看起來很有信心,而他的對手似乎在鼓勵他繼續!好像一點都沒有被嚇到。

最後,Elias的虛張聲勢沒有起作用,他輸了。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天正如Elias意識到的,Pluribus知道什麼時候該虛張聲勢,也知道別人在虛張聲勢,還知道什麼時候該改變自己的行為,這樣其他玩家就無法確定自己的策略。32歲 Elias說: 它確實做了一些人類很難做到的事情。

贏的背後,只是8天的訓練

之前AI和人玩遊戲,要嘛是雙人遊戲,如西洋棋、跳棋等,要嘛就是雙方之間的零和博弈(一方贏一方輸),AI可以在遊戲中找到Nash equilibrium strategy(納許平衡)來保證自己不會輸。

關於Nash equilibrium strategy(納許平衡)屬於博弈論範疇(注:納許證明了,如果允許混合策略,那麼任何一個博弈,只要參與者數量是有限的、參與者可以選擇的純策略也是有限的,那麼這個博弈至少有一個納許均衡)。

以經典的「石頭剪刀布」遊戲為例,AI可以在遊戲中找到對方的弱點和常出的手勢進行學習,以達到最終的勝利,而多人撲克意味著玩家數量的增多,在更複雜的遊戲中,AI難以確定如何與納許均衡相抗衡;採用固定策略不能很快觀察到的對手的策略傾向,而且需要監控到多個玩家在遊戲中策略的轉變,這對於AI多人撲克博弈來說,是一項挑戰。

鑑於多人遊戲,如果學習多個玩家的出牌習慣等特徵的訓練資料集成本過大,這裡Pluribus採用的策略是自己與自己博弈,不使用人類對手的數據作為模型訓練的輸入。在開始時,隨機的選擇玩法,透過不斷的訓練來提升自己的性能,這裡採用的博弈策略是改良版本的迭代的蒙地卡羅CFR(MCCFR),透過自我博弈,左右手互博,自己制定了一個blueprint strategy(藍圖策略),最後對每個可能的狀況進行概率分佈統計,透過搜尋決策樹來決定下一步的行為,是叫牌還是出牌。

CFR是一種迭代的自我遊戲演算法,AI從完全隨機遊戲開始,然後透過學習擊敗早期版本的自己逐漸改進。

在演算法的每次迭代中,MCCFR指定一個玩家作為其當前策略在迭代中更新的標記。在迭代開始時,MCCFR根據當前所有玩家的策略(最初是完全隨機的)模擬一手撲克牌。一旦模擬完成,人工智慧就會回顧每一個玩家做出的決定,然後透過選擇其他可用的行動來預測這個決定的好壞程度。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

在解決不完全訊息博弈中搜尋的問題,Pluribus跟蹤每一手,根據其策略達到目前狀況的可能性。不管Pluribus實際上握著的牌,它首先會計算如何使用可能的每一手,謹慎地平衡所有的策略,以保持對於對手的不可預測性。

AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天

 

撲克以外的事

之前在一對一局中大勝人類的Libratus後來去五角大樓上班去了,國防部認為這種策略型人工智慧或許可以幫助他們進行戰略的制定。

負責 Pluribus 專案的 研究員Noam Brown說:「Pluribus的技術可以用於華爾街交易、拍賣、政治談判和網路安全這些活動中,這些活動就像撲克一樣,涉及隱藏訊息,因為你並不總是知道真實世界的狀態。」

儘管像谷歌這樣的公司,有著「Don't be evil」的信條,但是,不可避免的是這樣能夠理解人類策略的人工智慧,還是會引發大眾對於人工智慧的某種恐懼,或者說,如果這樣的人工智慧被運用到軍事決策中,將會帶來多嚴重的後果?

bigdatadigest
作者

大數據文摘(bigdatadigest)成立於2013年7月,專注數據領域資訊、案例、技術,在多家具有影響力的網站、雜誌設有專欄,致力於打造精準數據分析社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則