人工智慧界的「阿光」，AlphaGo 身邊的代言人：台灣資工博士黃士傑

當昨天Master擊敗了中國九段棋手周睿羊之後，一項不多話的Master終於發言在圍棋網站的討論區中說明了自己是誰：我是 AlphaGo 的黃博士，揭露了是AlphoGo在升級之後，再度帶著最新版回來讓人類挑戰。也讓 AlphaGo 確定了依然是目前最強的圍棋人工智慧程式的地位。

黃博士就是黃士傑，被人戲稱為人工智慧界的「阿光」，從當年AlphaGo擊敗歐洲圍棋冠軍樊麾時，就一直擔任AlphaGo的棋手。不過，他也不只是一個人類傀儡而已，同時也是負責打造AlphaGo大腦的團隊核心人物之一。

▲之前AlphaGo擊敗歐洲歐洲圍棋冠軍樊麾（左）時，也是由黃士傑（右）擔任人類棋手。

黃士傑，一位熱愛圍棋的資工人

黃士傑是土生土長的台灣人，業餘圍棋六段，台灣師範大學資訊工程系碩士、台灣師範大學資訊工程系博士。他在91年的碩士論文為「電腦圍棋打劫的策略」，99年（西元2010年）的博士論文為「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」。

他在之前AlphaGo首戰擊敗南韓棋王李世乭之後接受採訪時表示：「deepmind應該是在14年底之前、在AlphaGo團隊出現之前就創建了。我本人喜歡下圍棋，棋力是臺灣業餘六段，去年在德國的比賽我甚至贏過一位日本職業棋手。但AlphaGo肯定是比我強太多了。職業水準的圍棋軟體，應該最慢在1-2年之內就會在市面上普及。」

根據他在論文中表示，雖然電腦圍棋的研究開始於1970年，但是圍棋程式從未被人們認為是強大的。一直到2006年，當「蒙地卡羅樹搜尋」與「樹狀結構信賴上界法」出現之後，才帶來了圍棋程式的革命。

蒙地卡羅是一種大數法則的方法，使用隨機取樣，而不用把所有的可能都估算到。但是當取樣的次數越多，其所得出的平均值將趨近於理論值。這個方式應用在圍棋時，會隨機下子直到盤末，由此依據各點模擬的結果，來對於盤面進行優劣的評估，從中選出最好的下子方式。

這個方法多少帶有點運氣，但是當取樣數量越多的時候，誤差會相對變低。2006 年，法國科學家以蒙地卡羅方式發展出的 Crazy Stone 在第十一屆電腦奧林匹克 9*9 比賽中獲得了冠軍。

而「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」這篇博士論文的指導教授之一，正是Crazy Stone 的那位法國開發者Rémi Coulom博士。而拿到了博士學位的黃士傑，之後也曾獲2012年臺灣電腦對局學會博士論文獎與2010 年19 路電腦圍棋金牌。

最後，值得一提的是，在這份2010年他才發表的博士論文摘要中，有這樣一段話：

「雖然電腦圍棋的研究開始於1970年，但是圍棋程式從未被人們認為是強大的。一直到2006年，當「蒙地卡羅樹搜尋」與「樹狀結構信賴上界法」出現之後，才帶來了圍棋程式的革命。人們才開始相信，圍棋程式在10年或者20年之後，將能夠擊敗頂尖的人類棋手」

現在，這份論文才發表不過6年的時間，他就親手把自己的預言給打破。

而在2016年3月，他在AlphaGo最終以4:1的佳績戰勝南韓棋王李世乭之後，也回到台灣，在台灣的Google總部舉辦了一次講座，在講座上說明了AlphaGo的人工智慧系統。

圍棋歷史悠久且難度高，一度成為人工智慧夢靨

黃士傑博士提到圍棋已有3000年的歷史，匯集了中國源遠流長的文化大成於一身，古稱琴棋書畫的「棋」就是指圍棋，全世界下圍棋的人數總共有4000萬人，他本身也是業餘六段的圍棋棋手。圍棋的難度在於它的複雜度很高，雖然規則簡單，但卻有10的170次方可能的盤面，變化總數比全宇宙的原子數還多，若真的要探究第一步最好的棋應該下在哪個位置，需要考慮到的變化基本上就是天文數字，所以圍棋被視為人工智慧的大挑戰。下圍棋需要棋手的直覺和計算能力，所以用電腦下圍棋非常困難，甚至可視為人工智慧的夢靨，自從1997年IBM的深藍打敗世界西洋棋王後，圍棋成為僅存尚無法突破的遊戲，而這次的勝利就是一個很大的突破。

黃士傑博士舉例說明西洋棋棋盤上有80個點，下第一步後還有79個點，而圍棋則有361個點，第二步棋就必須思考360個點，若一盤棋平均有150步，總盤面大概就是10的360次方，即使用電腦去暴力窮舉也可能幾億年都窮舉不完，因此困難處在於電腦找不到最佳解，最後考慮到圍棋除了計算以外的直覺特性，並利用這個特性來解決圍棋的難題。

▲黃士傑博士解析AlphaGo。

AlphaGo的厲害之處在於它與深度學習結合

AlphaGo能夠打敗職業九段的關鍵在於它有兩個主要的網路：策略網路和值網路，舉例來說，360個棋步中，策略網路會找出前20個最好的棋步，剩下的340步就可以不必考慮，而AlphaGo從人類的2、30萬個棋譜當中去學習最好的20個棋步，因此AlphaGo是吸取前人所有的成果，並非排除人類的研究成果。

值網路則是做為判斷盤面之用，在搜索到某個點的時候來判斷優勢方為何。總結來說，策略網路只需要思考20步，因此可以減少搜索的廣度；而值網路透過搜尋前面幾步來得知優勢或劣勢，故大幅減少搜索的深度，這就是AlphaGo成功的祕訣，AlphaGo也會藉由每天與AlphaGo的對弈來做強化式學習，以提升自身能力。