AI大逃殺：把128個AI放到遊戲裡內鬥，結果會是如何？

在更大、更類似於真實自然環境的遊戲世界中，情況幾乎是徹底翻轉了過來。研究者們發現，環境一旦稍有增大，AI們不再經常三個四個碰到一起，他們的攻擊慾望就飛速地下跌，大部分AI甚至把「避免發生戰鬥」當做最高層級的行動策略之一。

(本文授權轉載遊研社，原文連結)

短短的幾年間，人工智慧已經在越來越多的遊戲上戰勝了大部分人類。

發生在圍棋領域的事情不用多說，在更加複雜的電子遊戲領域，人工智慧的表現也越來越好——最典型的例子就是OpenAI在《Dota2》《星際爭霸2》以及平台跳躍等諸多遊戲上的嘗試，人類在面對AI時已經越來越討不到好了。

▲ 去年8月OpenAI在《Dota2》中擊敗了五位高分段玩家組成的戰隊

▲ 去年末OpenAI舉辦的人工智慧遊戲大賽中學會找遊戲Bug的AI現在，研究人工智慧的學者們已經不再滿足於讓AI擊敗人類了。

去年9月，OpenAI團隊提交了一篇論文的初稿，題為《神經MMO：一個人工智慧的大型多人遊戲環境》。與之前在競技類遊戲發力的AI模型不同，這次研究者並沒有以「擊敗人類」為目的，而是試圖模擬人類乃至生物的行為。

大家都知道生物能夠不斷進化很大的原因就是不同物種間競爭的存在，科學家們覺得這點非常契合AI 能「不斷自我學習並進化」的主基調。

他們借鑑了多款流行的大型多人在線網路遊戲，構建出了一個「資源有限，競爭者眾多」的遊戲環境，來觀察其中的幾十上百個AI將如何行動——是的，這個遊戲的玩家只有AI，沒有真人。

▲ 前天這個論文才正式發佈在OpenAI的博客中

這個遊戲被命名為「Neural MMO」（神經MMO）。最多128名AI會作為玩家降生在遊戲地圖的邊緣。世界中有可以通行的草地、森林和無法通過的水域、岩石。AI有飢餓度和口渴度，在森林方塊可以獲得食物，在水方塊可以獲得飲水。水是無限的，但森林方塊能夠提供的食物是有限的，被吃完後必須等很長一段時間才能回覆。

當然，AI的目標是生存下去，存活時間越長，得到的分數和評價也就越高。

▲ Neural MMO的遊戲擷圖

單單從「存活下去」這點來看，這個遊戲很像是吃雞遊戲——有限的資源，眾多的競爭對手，目標是活得最長。事實上科學家們最初也覺得AI最終會開始互相廝殺以佔有更多資源，他們還專門為AI們設計了三種戰鬥方式——高傷害的近戰AOE、低傷害的遠距離單體和幾乎沒有傷害的減速法術。

在最初的狹小地圖中，AI們確實不可避免地發生了戰鬥。這很大程度上不僅是由於資源有限，更多的其實是因為它們沒有嘗試其他選擇的機會——每個AI都被設計有戰鬥策略，幾個AI遇到一起總會有AI判斷需要先開火，最後混戰在所難免。

讀過科幻小說《三體》的人會發現，這種情況和《三體》中描述的黑暗森林狀態有微妙的相似之處，AI們的戰鬥策略，就像書中描寫的「智慧生物天生的攻擊基因」，最後導致的就是AI版本猜疑鏈的產生。

下圖就是一個簡單的例子。

原本位於上方的196和右下的146和平相處，都在採集森林資源而不是互相攻擊。然而左邊的204並沒有位於森林附近（雖然它前面一格就是森林），可能正是因此，它判斷攻擊的優先級要更高，於是突然對196展開了攻擊。受到攻擊大大增加了196判斷中攻擊的權重，一場三方混戰也就不可避免了。這裡196被攻擊後沒有還擊，而是選擇去攻擊「無辜」的146，是因為AI沒有報復心理，所有行動全部出於邏輯判斷。

但是在更大、更類似於真實自然環境的遊戲世界中，情況幾乎是徹底翻轉了過來。研究者們發現，環境一旦稍有增大，AI們不再經常三個四個碰到一起，他們的攻擊慾望就飛速地下跌，大部分AI甚至把「避免發生戰鬥」當做最高層級的行動策略之一。

▲ 進階地圖不再那麼狹窄，大部分遭遇都是發生在兩個AI之間

AI們在這種環境下不約而同地達成了一致的選擇——盡可能擴大探索範圍。

很難說「避免戰鬥」和「擴大探索」這二者，哪個是因，哪個是果。一方面，可探索的地區增多代表著資源不那麼匱乏，戰鬥的收益也就大大降低；另一方面，戰鬥的收益降低讓AI們更加熱衷於擴大自己的行動範圍。這兩個因素互相作用，最後導致了一個出乎研究者意料，但細想起來卻在情理之中的結果。

下圖是OpenAI的研究者給出的一張比較典型的大地圖下AI行動軌跡。

可以看出，不同顏色的線條重合得不少，代表著AI們時有相遇。但是大多數路線在重合後還是繼續延展下去，這說明相遇後大部分AI沒有選擇你死我活的打個痛快，而是對看一眼後就繼續去探索了。

這張圖對於人工智慧專家和普通人來說都沒什麼特殊意義，但是生物學家，尤其是研究生物行為的學者會發現，AI們的行為非常接近自然界中不同動物種群的活動。

「在自然界中，動物之間的競爭可以激勵它們擴散以避免衝突」，OpenAI研究團隊在報告中寫道，「我們觀察到AI的探索範圍隨著AI數量的增多而變大了。」據此，他們推測，AI數量越多越能激勵它們探索新的地圖尋找資源（當然前提是不出現最開始那種狹路相逢的混戰）。

▲ 1個AI就只會一條路走到黑，而8個AI在一個地圖會讓它們的探索更廣這其實是一個很好理解的結果。對自然界的動物們和AI們而言，戰鬥的成本是非常高的。它們可不像坐在電腦前的人類一樣，被打擊後罵一句倒楣就可以繼續下一局遊戲了，對它們來說，生命只有一次，死亡是最大的成本（AI可以不斷重生，但它們自己不知道這點）。

也正是因此，戰鬥大部分時候是萬不得已的選擇，這和很多人視之為普遍真理的黑暗森林法則截然相反——不過，在更大的尺度上事情更加複雜。

美國動物學家統計的「幾隻狼的活動路線」，可以看出它們盡可能不互相碰面，更別提戰鬥了

「事情更加複雜」，這正是電腦學者們下面要解決的問題。他們認為在目前的遊戲中得出的結果，最多算是有限的推測。Neural MMO的遊戲世界雖然已經盡可能模擬了現實環境，但還是簡化得太過分了。

OpenAI團隊有很多計畫。下一步，他們準備引入更多的攻擊方式，讓AI們的戰鬥能力大幅增加（就像現實世界的人類一樣）；他們還計畫調低森林再生食物的速度，讓環境更加惡劣；另外一個規劃是引入更複雜的合作機制，目前同樣顏色的AI被設定為不能互相攻擊（模擬生物的種群），還是稍顯單調，因為群體和群體之間從來不是並非簡單的「非敵即友」關係。

就算學者們盡可能模擬了現實環境，AI能不能代表人類還是很值得懷疑的問題。OpenAI團隊發佈了關於這個項目的論文初稿後，就有不少學者指出，人類的行為模式和AI的邏輯判斷有極大的區別。比如人不是完全趨利避害的生物，人類種群就更不是了；再比如對「什麼是利，什麼是害」，人類和目前設計的AI模型也有很大區別——AI把生存時間當成「利」，但人類是不是這樣想還很難說。很多學者認為現在的這個遊戲更像是純粹的自然界，而AI更像野生動物而不是高度社會化的人類。

然而即使是這些懷疑者，也普遍認為「這個模擬相當有趣」，在AI研究領域意義非凡。不同於之前更多著眼於技術水準的AI遊戲對戰，這個研究涉及到了AI的長期判斷和選擇。一個長期、穩定的環境能體現AI長期、穩定的取捨傾向，在人類身上，我們把這個「取捨傾向」叫做「道德」。

AI是否會有道德準則，它們通過利弊抉擇得出的判斷能不能算我們所說的「道德取向」，這些大哉問一直以來被人們爭論不休。現在，在一款MMO生存遊戲中，我們很可能會看到回答這些問題的曙光。