解讀AlphaZero：一種人類從未見過的智慧

在圍棋上打敗天下無敵手之後，DeepMind旗下的Alpha家族開始深入探究所有棋類，其中就包括西洋棋、日本將棋。2018年12月初，在AlphaZero誕生一週年之際，《自然》雜誌以封面文發佈了AlphaZero經過同行審議的完整論文，Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。

AlphaGo Zero發佈於2017年10月，而起真正受到重視是在去年12月初發佈的《科學》雜誌上，論文顯示，AlphaGo Zero在三天內自學了三種不同的棋類遊戲，包括西洋棋、圍棋和日本將軍棋，而且無需人工干預。這一成果震驚了西洋棋世界，幾個小時內，AlphaGo Zero就成為了世界上最好的棋類玩家。

眾所周知，在西洋棋方面，IBM的深藍在20年前就打敗了西洋棋大師，而後續的Stockfish和Komodo這些西洋棋程式也早已獨霸西洋棋世界。在AlphaGo Zero發佈之後，很多人質疑了其在西洋棋領域的價值。而本次的完整論文，對一些人認為機器演算法下西洋棋沒有價值的論調提出了幾個措辭頗為嚴厲的批評。這是因為，在過去的12個月裡，AlphaZero清楚展示了人類從未見過的一種智慧。

下面，就讓我們透過論文來分析下AlphaZero。

深藍、Stockfish和Komodo雖然能贏人類，但不能真正理解棋局

文章指出，在過去的二十年裡，用機器演算法下西洋棋已經取得了很大進步。1997年,IBM公司的西洋棋程式「深藍」（Deep Blue）在一場六局的比賽中擊敗了當時的人類世界冠軍卡斯帕洛夫（Garry Kasparov）。現在看來，這一成就並不神祕。深藍每秒可以計算2億個位置。它從不疲倦，從不在計算中出錯，也從不會忘記片刻之前的想法。

無論結果是好是壞，「深藍」都像一台真正的機器，粗暴而物質化。它的計算能力遠超過卡斯帕洛夫，但卻無法真正從思維上超越他。在第一局的比賽中，深藍貪婪地接受了卡斯帕洛夫用車換一名主教的犧牲，卻在16步之後輸了比賽。現在，諸如Stockfish和Komodo等當前世界上最強的西洋棋程式仍然在以這種方式下棋。它們喜歡吃掉對手的棋子；它們防守像鋼鐵一樣強悍。但是，儘管這些西洋棋程式要比任何人類棋手強大得多，但並沒有真正理解棋局本身的意義。

經過幾十年的發展，人類大師關於棋類遊戲的經驗都被作為複雜的評估工具編進程式中，表明在下棋中該尋求什麼樣的有利位置以及避免陷入什麼樣的不利境地。比如，王的安全性，棋子的活動、兵形、中心控制，以及如何平衡利弊。但以往很多西洋棋程式卻天生無視這些原則，給人留下的印像是野蠻粗暴的，這些程式速度快得驚人，但卻完全缺乏洞察力。

AlphaGo Zero不僅打敗了人類和所有程式，還擁有洞察力

所有這些都隨著機器學習的興起而改變。AlphaZero透過與自己對弈並根據經驗更新神經網路，從而發現了西洋棋的原理，並迅速成為史上最好的棋手。它不僅能夠輕而易舉地擊敗所有最強大的人類棋手，還能擊敗當時的電腦西洋棋世界冠軍Stockfish。在與Stockfish進行的100場比賽中，AlphaZero取得28勝72平的好成績。它沒有輸掉一場比賽。

最令人不可思議的是，AlphaZero似乎表達出一種天然的洞察力。它具備浪漫而富有攻擊性的風格，以一種直觀而優美的方式發揮著電腦所沒有的作用。它會玩花招，冒險。在其中幾局中，它使Stockfish癱瘓並玩弄它。當AlphaZero在第10局進行進攻時，它把自己的皇后佯退到棋盤的角落裡，遠離Stockfish的國王。通常來說，這並不是攻擊皇后應該被放置的地方。

然而，這種奇怪的撤退行為充滿了惡意，不管Stockfish如何應對，它都注定要失敗。經過數十億次殘酷的計算後，AlphaZero幾乎是在等待Stockfish意識到，自己的處境是多麼無望，就像一頭被擊敗的公牛面對鬥牛士一樣平靜落敗。大師們從未見過這樣的機器。AlphaZero擁有精湛的技藝，同時也擁有機器的力量。這是人類第一次瞥見一種令人敬畏的新型智能。

很明顯，AlphaZero獲勝靠的是更聰明的思維，而不是更快的思維。它每秒只計算6萬個位置，而Stockfish會計算6千萬個。它更明智，知道該思考什麼，該忽略什麼。卡斯帕洛夫在《科學》雜誌文章附帶的一篇評論中寫道，AlphaZero透過自主發現西洋棋的原理，開發出一種「反映遊戲真相」的玩法，而不是「程式設計師式的優先級和偏見」。

除了棋類，AlphaZero還能做什麼？

現在的問題是，機器學習能否幫助人類發現所關心問題的真相？比如像癌症和意識、免疫系統之謎、基因組之謎等科學和醫學尚未解決的重大問題。

早期跡象令人鼓舞。去年8月份，《自然醫學》上的兩篇文章探討了機器學習如何應用於醫學診斷。在一項研究中，DeepMind研究人員與倫敦莫爾菲爾德眼科醫院（Moorfields Eye Hospital）的臨床醫生合作，開發出一種深度學習演算法，可以準確地對各種視網膜病變進行分類。

另一篇文章也涉及一種機器學習演算法，其能夠確定急診室病人的CT掃瞄是否顯現出中風、顱內出血或其他重要神經疾病的跡象。對於中風患者來說，每一分鐘都很重要；治療耽誤的時間越長，結果就越糟。新演算法的準確性堪比人類專家，而且比人類專家快150倍。一個更快的診斷有助於醫生對最緊急病例進行快速分類，並由人類放射科醫生進行複查。

然而令人沮喪的是，機器學習演算法還無法清晰表達它們的想法。我們不知道它們如何得出結論，所以也就無從確定能否信任機器。AlphaZero似乎已經發現了一些有關西洋棋的重要原則，但它無法與我們分享這種洞察力。作為人類，我們想要的不僅僅是答案，我們想要的是洞察力。從現在起，這將成為我們與電腦互動交流的開始。

事實上，這一情況在數學領域中早有耳聞。四色映射定理就是這樣一個長期存在的數學問題。該定理指出在一定的合理約束條件下，有關相鄰國家的任何地圖都可以只使用四種顏色進行著色，這樣相鄰兩個國家的顏色就不會相同。

雖然人們最終在電腦幫助下於1977年證明了四色映射定理，但是沒有人能夠檢驗論證中的所有步驟。從那以後，這個定理的證明得到了驗證和簡化，但仍有一些部分需要進行蠻力計算。這種發展使許多數學家感到惱火。他們不需要確認四色定理是正確的，但他們想知道為什麼這是真的，但是證明沒有幫助。

暢想未來：通用演算法何時到來？

但是設想有一天，也許就在不久的將來，AlphaZero已經發展成為一種更通用的解決問題演算法，其將擁有至高無上的洞察力，它能夠拿出漂亮的證據，就像AlphaZero與Stockfish對弈時一樣優雅，而且每一個證明都會揭示為什麼定理是正確的。

對於人類數學家和科學家來說，這一天將標誌著一個新時代的到來。機器的速度越來越快，相比之下人類神經元卻以毫秒級的速度緩慢運轉，我們再也跟不上機器的理解速度，人類洞察力的黎明可能很快就會變成黃昏。

無論是基因調控或癌症，還是免疫系統的編排，抑或是亞原子粒子的運動，其中或許還存在有待於發現的更深層模式。假設這些模式需要超越人類的更高智慧來預測，而AlphaZero的繼任者又能夠辨識並理解它們，那麼在我們人類看來演算法就像是一個神諭。

或許未來，我們不再明白為什麼電腦的結論總是正確的，但我們可以透過實驗和觀察來檢驗它的計算和預測。科學將把我們的角色降低到旁觀者的角色，在驚奇和困惑中目瞪口呆。

也許最終我們不再糾結於人類自身關於洞察力的匱乏。畢竟機器演算法將能夠治癒我們所有的疾病，解決我們所有的科學問題，並讓我們所有的一切順利前行。在我們作為智人存在的最初30萬年時間裡，我們在沒有多少洞察力的情況下一樣生存得相當好。我們將自豪地回憶起人類洞察力的黃金時代，這段幾千年的輝煌插曲就發生在我們不理解的過去和我們不可思議的未來之間。

Alpha家族高手鍊成記

Alpha家族系列出自DeepMind公司，這家公司是2010年由傑米斯‧哈薩比斯，謝恩‧列格和穆斯塔法‧蘇萊曼創立的。在2014年，DeepMind榮獲了劍橋大學電腦實驗室的「年度公司」獎項。2014年1月26日，Google宣佈收購DeepMind科技，收購的價格大概為4億美元。

顯然，DeepMind真正被全球熟知是在第一次人機大戰之後，從2016年的那場對弈之後，DeepMind旗下的圍棋AI就開始了超神之路。

2016年1月27日，AlphaGo在沒有任何讓子的情況下，以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智慧領域，實現了一次史無前例的突破。電腦程式能在不讓子的情況下，在完整的圍棋競技中擊敗專業選手，這是第一次。

2016年3月，阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世乭進行圍棋人機大戰，以4比1的總比分獲勝，舉世嘩然，人工智慧概念開始被大眾熟知。

2016年末2017年初，該程式在中國棋類網站上以「大師」（Master）為註冊賬號與中日韓數十位圍棋高手進行快棋對決，連續60局無一敗績；

2017年5月，在中國烏鎮圍棋峰會上，AlphaGo以3比0的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日，AlphaGo還戰勝了由陳耀燁、唐韋星、周睿羊、時越、羋昱廷五位世界冠軍組成的圍棋團隊。在柯潔與AlphaGo的人機大戰之後，AlphaGo團隊宣佈AlphaGo將不再參加圍棋比賽。

2017年10月18日，DeepMind團隊公佈了最強版AlphaGo ，代號AlphaGo Zero。它的獨門祕籍是「自學成才」。而且，是從一張白紙開始，零基礎學習，在短短3天內，成為頂級高手。經過短短3天的自我訓練，AlphaGo Zero就強勢打敗了此前戰勝李世乭的舊版AlphaGo，戰績是100:0的。

2017年12月5日，AlphaGo Zero迎來升級，這個被稱為AlphaZero的程式在三天內自學了三種不同的棋類遊戲，包括西洋棋、圍棋和日本的將棋，無需人工干預，一篇描述這一成就的論文今年12月初在《科學》雜誌發表。在AlphaZero之外，DeepMind在醫療領域還打造了一個名為AlphaFold的AI系統，它能夠應對當今生物學中最大的挑戰之一：模擬蛋白質的形狀。

2018年12月，AlphaGo Zero登上《自然》雜誌封面，完整論文首次公開。