人工智慧界的「阿光」,AlphaGo 身邊的代言人:黃士傑宣佈功成身退,離開AlphaGo 計畫

人工智慧界的「阿光」,AlphaGo 身邊的代言人:黃士傑宣佈功成身退,離開AlphaGo 計畫

從當年AlphaGo擊敗歐洲圍棋冠軍樊麾開始,就一直擔任AlphaGo的棋手的黃士傑博士,被人稱為人工智慧界的「阿光」、AlphaGo的最佳伙伴。不過,隨著AlphaGo已經天下無敵,不再與人類對戰之後,黃士傑博士也於昨天宣佈功成身退。

作為AlphaGo的最佳伙伴,黃士傑博士不只是一個人類傀儡而已,同時也是負責打造AlphaGo大腦的團隊核心人物之一。而多年來他與AlphaGo形影不離的畫面,看來已經告一段落了。他在臉書上宣佈,他在AlphaGo的研究已經劃下了句點。未來工作轉移到DeepMind的其它專案上。

 

而隨著黃士傑離開AlphaGo的研究,讓我們回顧一下過去黃士傑與AlphaGo這對一人一機的好伙伴,所創下的輝煌事蹟,以及AlphaGo的進化歷程。

 

黃士傑,一位熱愛圍棋的資工人

黃士傑是土生土長的台灣人,業餘圍棋六段,台灣師範大學資訊工程系碩士、台灣師範大學資訊工程系博士。他在91年的碩士論文為「電腦圍棋打劫的策略」,99年(西元2010年)的博士論文為「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」。

他在之前AlphaGo首戰擊敗南韓棋王李世乭之後接受採訪時表示:「deepmind應該是在14年底之前、在AlphaGo團隊出現之前就創建了。我本人喜歡下圍棋,棋力是臺灣業餘六段,去年在德國的比賽我甚至贏過一位日本職業棋手。但AlphaGo肯定是比我強太多了。職業水準的圍棋軟體,應該最慢在1-2年之內就會在市面上普及。」

根據他在論文中表示,雖然電腦圍棋的研究開始於1970年,但是圍棋程式從未被人們認為是強大的。一直到2006年,當「蒙地卡羅樹搜尋」與「樹狀結構信賴上界法」出現之後,才帶來了圍棋程式的革命。

蒙地卡羅是一種大數法則的方法,使用隨機取樣,而不用把所有的可能都估算到。但是當取樣的次數越多,其所得出的平均值將趨近於理論值。這個方式應用在圍棋時,會隨機下子直到盤末,由此依據各點模擬的結果,來對於盤面進行優劣的評估,從中選出最好的下子方式。

這個方法多少帶有點運氣,但是當取樣數量越多的時候,誤差會相對變低。2006 年,法國科學家以蒙地卡羅方式發展出的 Crazy Stone 在 第十一屆電腦奧林匹克 9*9 比賽中獲得了冠軍。

人工智慧界的「阿光」,AlphaGo 身邊的代言人:黃士傑宣佈功成身退,離開AlphaGo 計畫

而「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」這篇博士論文的指導教授之一,正是Crazy Stone 的那位法國開發者Rémi Coulom博士。而拿到了博士學位的黃士傑,之後也曾獲2012年臺灣電腦對局學會博士論文獎與2010 年19 路電腦圍棋金牌。

最後,值得一提的是,在這份2010年他才發表的博士論文摘要中,有這樣一段話:

「雖然電腦圍棋的研究開始於1970年,但是圍棋程式從未被人們認為是強大的。一直到2006年,當「蒙地卡羅樹搜尋」與「樹狀結構信賴上界法」出現之後,才帶來了圍棋程式的革命。人們才開始相信,圍棋程式在10年或者20年之後,將能夠擊敗頂尖的人類棋手」

現在,這份論文才發表不過6年的時間,他就親手把自己的預言給打破。

而在2016年3月,他在AlphaGo最終以4:1的佳績戰勝南韓棋王李世乭之後,也回到台灣,在台灣的Google總部舉辦了一次講座,在講座上說明了AlphaGo的人工智慧系統。

 

圍棋歷史悠久且難度高,一度成為人工智慧夢靨

圍棋已有3000年的歷史,匯集了中國源遠流長的文化大成於一身,古稱琴棋書畫的「棋」就是指圍棋,全世界下圍棋的人數總共有4000萬人。圍棋的難度在於它的複雜度很高,雖然規則簡單,但卻有10的170次方可能的盤面,變化總數比全宇宙的原子數還多,若真的要探究第一步最好的棋應該下在哪個位置,需要考慮到的變化基本上就是天文數字,所以圍棋被視為人工智慧的大挑戰。下圍棋需要棋手的直覺和計算能力,所以用電腦下圍棋非常困難,甚至可視為人工智慧的夢靨,自從1997年IBM的深藍打敗世界西洋棋王後,圍棋成為僅存尚無法突破的遊戲,而這次的勝利就是一個很大的突破。

黃士傑曾舉例說明西洋棋棋盤上有80個點,下第一步後還有79個點,而圍棋則有361個點,第二步棋就必須思考360個點,若一盤棋平均有150步,總盤面大概就是10的360次方,即使用電腦去暴力窮舉也可能幾億年都窮舉不完,因此困難處在於電腦找不到最佳解,最後考慮到圍棋除了計算以外的直覺特性,並利用這個特性來解決圍棋的難題。

人工智慧界的「阿光」,AlphaGo 身邊的代言人:黃士傑宣佈功成身退,離開AlphaGo 計畫

▲黃士傑博士解析AlphaGo。

AlphaGo的厲害之處在於它與深度學習結合

AlphaGo能夠打敗職業九段的關鍵在於它有兩個主要的網路:策略網路和值網路,舉例來說,360個棋步中,策略網路會找出前20個最好的棋步,剩下的340步就可以不必考慮,而AlphaGo從人類的2、30萬個棋譜當中去學習最好的20個棋步,因此AlphaGo是吸取前人所有的成果,並非排除人類的研究成果。

值網路則是做為判斷盤面之用,在搜索到某個點的時候來判斷優勢方為何。總結來說,策略網路只需要思考20步,因此可以減少搜索的廣度;而值網路透過搜尋前面幾步來得知優勢或劣勢,故大幅減少搜索的深度,這就是AlphaGo成功的祕訣,AlphaGo也會藉由每天與AlphaGo的對弈來做強化式學習,以提升自身能力。

人工智慧界的「阿光」,AlphaGo 身邊的代言人:黃士傑宣佈功成身退,離開AlphaGo 計畫

▲黃士傑博士解說策略網路及值網路。

 

 

從AlphaGo到AlphaGo Zero

去的 AlphaGo 展現的是能夠掌握龐大的數據量,並在這個基礎上結合自我學習能力去做深度學習,但這透露出一個缺點是,AlphaGo 有可能在未來,永遠走不出超越人類既有認知的新棋步,然後繼續帶有「模仿人類的圍棋」下法繼續成長,如此 AlphaGo 的棋藝發展依舊侷限於人類的認知範圍裡。

而新的 AlphaGo Zero 展現的就是全新的「自我學習演算法」,因為它從沒看過人類棋譜,因此它單純的是透過與自我的對奕,來提升圍棋能力,它學的只是圍棋規則和關鍵概念,因此它拋棄(或者從來沒有過)一切與「人」有關的圍棋知識,然後透過超深度的自我對奕來達到迅速成長,在 40 天的自我訓練時間內,AlphaGo Zero 日以繼夜的與自己進行了 2900 萬次的對奕。

 AlphaGo Zero 自我學習能力驚人,超越前幾代 AlphaGo。

 AlphaGo Zero 不再模仿、參考人類的圍棋玩法,因為不給它任何一張棋譜,因此它就完全沒有被任何思想、下法所框架住。它只能自己跟自己玩,結合全新的自我學習演算法,做到分分鐘成長和突破。

AlphaGo 團隊負責人 Dave Silver 表示:「人們一般認為人工智慧的學習,就是關於大數據和海量計算,但是 DeepMind 通過 AlphaGo Zero 的案例發現,演算法比計算或者數據可用性更重要」。

 論文中的圖表顯示了 AlphaGo Zero 在與自我對奕的期間中,系統並沒有因此出現不穩與錯亂。

換言之,Deepmind 想藉 AlphaGo Zero 展現的亮點在於,AI(人工智慧)的未來將無需任何人類指導,和吸收數據;通過全新的強化學習方式,AI(人工智慧)可以自己教導自己,並且成長快速。DeepMind團隊表示,期待將此技術廣泛應用到其他社會問題上,這將對我們的生活產生重大影響。

 AlphaGo 團隊負責人 David Silver

更驚人的是第一代的 AlphaGo 需要用到 176 個 GPU 晶片,而 AlphaGo Zero 只需要使用一台 4 個 TPU 的機器即可完成自我深度學習的任務,也就是說 Zero 使用的硬體資源更少,但在性能、深度學習上,卻擁有了一個質的進步,高出舊版數個等級。

 

 

想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@
janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則