對通用人工智慧 AGI 影響最深遠的 DeepMind 公司和 Google 的拉鋸戰

Deepmind或許是當今世界對AGI（artificial general intelligence，AGI：也稱通用人工智慧）影響最深遠的公司。《經濟學人》近日長文撰寫了這家明星AI公司及其創始人的故事。透過對二十餘名內部人士的採訪，研究了這家公司的研究態度——其關於AGI的追求和對強化學習的執念，這對他們的研究意識形態產生了重要影響，也根深蒂固於他們的企業文化。

2010年8月的一個下午，在舊金山灣，一個34歲的倫敦人大步流星地走上舞台。他深吸一口氣，放鬆緊繃的神經，露出一個蹩腳的微笑，開口講道：「今天，我要講述如何用一個完全不同的方法去構建......」空氣突然安靜，好像在等待著一個意欲改變世界的人吶喊出自己重大的野心－－「AGI」傑米斯·哈薩比斯（Demis Hassabis）說道。

AGI指通用型人工智慧，是一種擁有與人類相同智力水準或甚至超過人類的理想化電腦程式。AGI能夠出色地完成離散型任務，例如辨識照片或翻譯語言等，這與我們手機和電腦中所見到過的人工智慧（AI）本質上是相同的。

但除此之外，它還會做加減運算、下棋、說法語；可以解物理論文、撰寫小說、制定投資策略、陌生人進行愉快的交談；它甚至可以監測核反應、管理電網和交通流量，毫不費力地在各個領域獲得一個又一個的成就－－AGI將使當今最先進的AI融合成一個袖珍計算器。

目前，人類是唯一擁有完成所有這些任務能力的智慧生物，但人類的智力受限於身體所能提供的能量；而AGI是在電腦上運行的，所以它不會受到這些限制，AGI的能力上限僅由處理器的數量決定。

AGI將從完成監測核反應任務開始，按照其一秒閱讀上萬篇物理論文的速度吸收知識，不久便可以具備發現新能源的能力，而這一速度是人類經過千年進化也比不上的。當人類智慧可以被電腦的速度和可擴展性輔助，目前看似不可解決的問題將被輕鬆解決。

哈薩比斯曾向英國報紙《Observer》的記者描述，他希望AGI能夠掌握「癌症、氣象、能源、基因組學、宏觀經濟和金融系統」等學科知識。

哈薩比斯發言的這場大會被稱為奇點峰會。根據未來學家的說法，「奇點」指的是由於AGI出現引發的結果。由於AGI將以高速處理訊息，很快它就將變得「聰明絕頂」。自我改善的快速循環將導致機器智慧的「爆炸」，使人類窒息於「矽塵」之中。那麼這個奇點將帶來烏托邦還是地獄？這已經成為了一個宗教信仰一般的問題。

「如何建立人造思維」、「 AI解決老齡化問題」、「取代我們的身體」、「改變生與死的界限」……從會談的標題來看，這場大會的與會者傾向於將人工智慧視為救世主；相比之下，哈薩比斯的發言似乎沒有那麼大的噱頭－－「基於神經科學的研究方法探究AGI架構」。

哈薩比斯講話速度飛快，踱步於講台和螢幕之間。他身著一件栗色套頭衫和一件白色系扣襯衫，像極了一個在校的大學生，但他瘦小的身材下卻蘊藏了極高的智慧和無限的力量。哈薩比斯解釋道：到目前為止，科學家已從兩個大方向上探索AGI。

一條支路可以稱為基於規則的人工智慧。在這一支路上的研究人員試圖描述出一個可以像人類一樣思考的系統所需的所有規則，並透過程式編輯加以實現。這種方法在20世紀80年代和90年代很流行，但沒有產生預期的結果。哈薩比斯認為形成人類認知的神經結構太過於精妙，根本無法以這種方式描述。

另一條支路的研究人員試圖數位化重現大腦的神經網路。這雖然有一定的道理，畢竟腦是人類智慧的所在；但哈薩比斯認為這些研究人員的這一企圖就像想要繪製宇宙中的每一顆恆星，也走在了一個歪路上。更根本的問題是，這一研究方法就像試圖透過鑿開電腦檢查電晶體的相互作用來了解Microsoft Excel的工作原理，他們所關注的大腦加工水準是錯誤的。

哈薩比斯提出了一個中間立場：AGI應該從大腦處理訊息的宏觀方法中獲取靈感－－而不是物理系統或它在特定情況下的應用規則。換句話說，它應該專注於理解大腦的軟體，而不是硬體。

現有如功能性磁振造影（fMRI）這樣的新技術，使得研究人員可以探究人類在特定活動下的大腦活動，說明這一方向具有一定的可行性。他告訴觀眾，最新的研究表明，大腦會在睡眠期間透過重播經驗學習一般原則，研究人員應該嘗試模仿這種系統構造AI。

在演講幻燈片的右下角出現了一個圓形的藍色漩渦，緊貼的兩個單詞DeepMind赫然出現在Logo之下－－這是該公司第一次正式出現在公開場合。

這次發言遠遠沒有看起來那麼簡單，哈薩比斯為了這個邀請，努力了一年之久。他真正的目的是與矽谷億萬富翁彼得·泰爾（Peter Thiel）的一分鐘會面，而泰爾正是這場會議的贊助方－－哈薩比斯想要泰爾的投資。

泰爾似乎比哈薩比斯本人對AGI更有熱情。在2009年奇點峰會的一次演講中，泰爾曾表示，他對未來最大的恐懼不是機器人起義（他在紐西蘭內陸地區擁有一個末日避難所，他其實比大多數人做好了充足的準備）。相反，他擔心奇點來得太晚，世界更需要新技術來抵禦經濟衰退。

DeepMind最終總募資200萬英鎊，其中泰爾投資了140萬英鎊。當Google以6億美元的價格在2014年1月收購該公司時，泰爾和其他早期投資者的投資收益率高達5,000％。

對於許多創始人來說，這是一個圓滿的結局。他們可能會放慢發展速度，甚至退後一步，花更多的時間和錢打交道。但對於哈薩比斯來說，Google的收購只是他建造AGI帝國的另一步進展。2013年，他花了很多時間談判交易的條款，使DeepMind獨立於Google運營，DeepMind在不失去控股權的前提下獲得了Google提供的現金流和運算能力。

哈薩比斯認為DeepMind將是一個混合體：它作為創業公司擁有強大的自我驅動力，又匯集了來自各大頂尖大學的聰明頭腦，同時擁有世界上最有價值公司之一的雄厚資金支持－－這些因素都將加速AGI的到來，解決人類所面臨的難題。

有著華人血統的天才圍棋少年

傑米斯·哈薩比斯於1976年出生於倫敦北部，是三個兄弟姐妹中最大的一個。父親是生活在塞浦路斯的希臘人，經營著一家玩具店；母親是生活在新加坡的華人，在英國百貨公司約翰·劉易斯工作。

他從小便體現出驚人的才能－－在他四歲時，旁觀了一場父親和叔叔的西洋棋比賽，從此迷上了西洋棋，沒過幾週他竟然在棋局上擊敗了許多成年人，等到他13歲時，他已在世界同齡棋手中位居第二。而且在他八歲時，他已經可以在一台電腦上寫出自己的程式碼，僅透過自學掌握了程式撰寫技術。

1992年，哈薩比斯比原計劃提前兩年完成了他的A-levels課程。他找到一份在Bullfrog Productions的電子遊戲程式撰寫工作。哈薩比斯編寫了一個名為主題公園（Theme Park）的遊戲，在這個遊戲裡，玩家可以設計並營運了一個虛擬遊樂園，這個遊戲的銷量高達1500萬份。之後這家公司最佳化並開發了更大規模的虛擬城市遊戲，哈薩比斯編寫的主題公園（Theme Park）成為這個大規模遊戲的一部分。

除了編寫遊戲外，他還很擅長玩遊戲，比如西洋棋、拼字遊戲、撲克和西洋雙陸棋。1995年，在劍橋大學學習電腦科學時，哈薩比斯多次在學生圍棋錦標賽擊敗對手。圍棋比西洋棋要復雜得多，玩家只有透過長期訓練才能獲得足夠多的經驗進而熟練制定遊戲戰略。沒有人知道哈薩比斯以前是否玩過圍棋。

哈薩比斯很快稱霸了初學者的比賽，然後又擊敗了經驗豐富的圍棋專業玩家，那位專業玩家對於自己敗給一名19歲的新手頗為震驚。劍橋圍棋大師Charles Matthews看了哈薩比斯的比賽後，決定開始培養他。

哈薩比斯一次又一次在圍棋比賽上展現他的天賦，漸漸地，他開始好奇電腦是否可以像人類一樣透過不斷積累的經驗來學習。遊戲提供了一個現實世界無法比擬的學習環境。遊戲雖然是從現實世界中發展而來，但它們可以在沒有外界干擾的情況高效進行。與現實世界相比，在遊戲裡，時間可以過得比現實生活中快很多：幾天內，玩家就能組建一個團體，並在幾分鐘內就能進行戰鬥。

1997年的夏天，哈薩比斯去日本旅遊。那年5月，IBM的Deep Blue電腦擊敗了世界西洋棋冠軍Garry Kasparov。這是電腦第一次在西洋棋比賽中擊敗了一位大師。這場比賽引起了全世界的關注，同時還引發了人們對電腦不斷發展和潛在威脅的擔憂。

哈薩比斯遇到日本棋盤遊戲大師Masahiko Fujuwarea，他談到了一個將戰略遊戲和人工智慧結合起來的想法：有一天他會建立一個電腦程式，這個程式會擊敗全世界最厲害的人類圍棋玩家。20歲的哈薩比斯認為，他目前的能力還不足以支持他實現自己的夢想，但他心中已經有了一個藍圖。

1998年，他創辦了一個名為Elixir的遊戲工作室。哈薩比斯專注於開發一個名為「共和國革命」（Republic: The Revolution）的政治模擬遊戲。當哈薩比斯還在上學時，他告訴他的朋友穆斯塔法·蘇萊曼（Mustafa Suleyman），這個世界需要一個能模擬複雜的社會動態並解決棘手社會問題的模型。現在，他嘗試在遊戲中這樣做。

事實證明，這很難。Elixir最終發布了這款遊戲的精簡版，但這款遊戲沒有火起來。其他類似的遊戲也相繼失敗（比如一個名為Evil Genius的龐德惡棍模擬器）。2005年4月，哈薩比斯關閉了Elixir。Matthews認為，哈薩比斯創立公司只是為了獲得管理經驗。現在，在哈薩比斯開始尋求AGI之前，他還不夠了解一個至關重要的領域－－人類的大腦。

2005年，哈薩比斯在倫敦大學學院（UCL）獲得神經科學博士學位。他在博士期間進行了記憶和想像力方面的研究。一篇被引用超過1000次的論文表明，健忘症患者很難進行想像，這表明記憶和創造心理圖像之間存在聯繫。為了解決AGI，哈薩比斯正在嘗試理解大腦。他的大部分工作最後都回到了一個問題：人類大腦是如何獲得併記住概念和知識？

哈薩比斯於2010年11月15日正式成立了DeepMind。該公司的使命宣言與現在一樣－－「解決智慧（solve intelligence）」，然後用它來解決其他問題。正如哈薩比斯告訴Singularity Summit的參會者，這意味著讓電腦像人類大腦一樣理解並執行任務。

哈薩比斯並不覺得科學已經完全了解人類的思想。他認為不能簡單地從數百項神經科學研究中提出AGI藍圖。他自信地認為以他現在的水準足夠支撐他進行AGI的研究。然而，事實並非如此。我們對大腦的實際運作方式仍然知之甚少。2018年，一群澳大利亞研究人員對哈薩比斯的博士論文研究結果提出質疑。他們認為文章的統計數據很糟糕。雖然質疑是針對一篇論文，但也足夠表明DeepMind還有很長的路要走。

Suleyman和Shane Legg是兩個痴迷AGI的紐西蘭人，哈薩比斯在倫敦大學學院認識了他們，他們後來成為了DeepMind的聯合創始人。

哈薩比斯很有天賦，DeepMind在他的帶領下發展地越來越快。DeepMind前運營經理Ben Faulkner說：「哈薩比斯有點像磁鐵，吸引著越來越多的人才。」許多人拒絕了Google和Facebook等矽谷巨頭的offer，選擇進入DeepMind。也許DeepMind最大的成功就是聘請並留下最聰明和最優秀的人才。DeepMind在布魯姆斯伯里的羅素廣場（Russell Square）裡開設了商店，地址在倫敦大學學院（UCL）的馬路對面。

DeepMind所關注的一種機器學習技術－－強化學習（reinforcement learning），源於哈薩比斯對遊戲和神經科學的雙重熱愛。這種程式是為收集相關環境訊息而建立的，通過重放積累的經驗來進行學習，就像哈薩比斯在Singularity Summit lecture講座中給出的人類大腦活動的描述一樣。

電腦在強化學習領域還是一片空白。該程式展示了一個虛擬環境，和西洋棋或視訊遊戲的模擬一樣，只有規則是已知的。該程式包含至少一個稱為神經網路的零件，它由多層計算結構組成，這些計算結構可以篩選訊息並辨識特定的特徵或策略。

每個層都以不同的抽象層級對環境進行檢查。起初，這些網路的成功率很低，但重要的是，它們會不斷的積累經驗。在嘗試不同的策略時，它們會變得越來越複雜，如果它們成功，就會獲得獎勵，而且一旦犯過一次錯誤就不會再犯。人工智慧的最厲害的地方在於重覆做任務的速度。

2016年，DeepMind吸引了全世界的目光，它建立了一個結合強化學習和其他技術的AI程式來玩圍棋。

這就是廣為人知的AlphaGo。2016年，AlphaGo在首爾的五場比賽中擊敗了世界冠軍，全世界都為之震驚。次年，改進版的AlphaGo擊敗了中國圍棋冠軍。

像1997年的Deep Blue一樣，AlphaGo改變了人類對自我成就的看法，人類世界的冠軍，已經不再是地球上最智慧的存在了。哈薩比斯在將他的野心告知了Fujuwarea近20年後，實現了這一目標。哈薩比斯說，這場比賽讓他幾乎要喜極而泣。傳統來說，AlphaGo的學生回報它的方式就是在一場比賽中擊敗它，而哈薩比斯就是透過贏得整場比賽來感謝Matthews的。

DeepBlue是透過蠻力和高速運算的優勢贏得的勝利，但AlphaGo卻風格迥異，它看起來就很有藝術性，很具人性化。它的優雅和精緻，及其超強的計算力，都表明在疾病治療和城市管理的項目設計方面，DeepMind要比其競爭對手更進一步。

結緣Google，走向世界

哈薩比斯堅信DeepMind將會改善世界。但AGI具有很大的不確定性，即使有一天它實現了，我們也不知道它是好是壞，又或者它是否會服從人類的控制？即使它能被控制，那又應該由誰來控制它？

從一開始，哈薩比斯就一直試圖保護DeepMind的獨立性，他堅持認為DeepMind應該留在倫敦。2014年，當Google要收購該公司時，控制權問題變得更加緊迫。哈薩比斯其實不需要向Google出售DeepMind，他手頭上有大量現金，而且他還想出了一個商業模式，可以讓公司設計遊戲來資助研究。

但是，就像許多創始人一樣，他沒能抵擋Google的巨額的資金吸引。哈薩比斯並不願交出他所精心創立的公司，因此作為交易的一部分，DeepMind制定了一項計劃，來阻止Google單方面控制公司的智識財產權。據知情人士透露，在收購前一年，雙方簽署了一份名為「道德與安全審查協議」的合約。

審核協議規定，作為DeepMind的核心技術AGI，無論其合何時能夠研究成功，都將被一個稱為道德委員會的理事會掌控。根據同一消息來源，道德委員會不僅僅是Google表面的讓步，它還為DeepMind提供了堅實的法律支持，以控制其最有價值和最危險的技術。

小組成員的名字尚未公開，但另一個與DeepMind和Google關係密切的消息人士表示，DeepMind的三位創始人都是委員會成員。（DeepMind拒絕回答有關審核協議的一系列詳細問題，但表示「道德監督和治理從一開始就是我們的首要任務。」）

哈薩比斯能決定DeepMind命運的還有其他方式，那便是忠誠。無論是過去的老員工還是現在的新員工，都認為哈薩比斯的研究課題是DeepMind最大的優勢之一。他的課程吸引了世界上數百名最有才華的專家，使其放棄自己的學術研究並心甘情願地加入他的團隊工作。DeepMind在巴黎、亞伯達省和阿姆斯特丹均設有分公司。

許多員工認為與哈薩比斯和DeepMind的關係比與Google的關係更為親密，畢竟Google收購DeepMind就是為了獲益。他們都認為只要自己保持個人忠誠度，哈薩比斯相比其唯一的股東就擁有較大的權力。對於Google來說，透過代理服務的DeepMind吸納AI人才比從Facebook或Apple挖人更好。

DeepMind有另一個槓桿來源，就是其公眾影響力，但這是需要不斷的增加曝光的。該公司最擅長的就是這一點，其中AlphaGo就是一場公關演出。自被Google收購以來，該公司一再引起全球關注。

其中一款火爆的應用產品，可以在眼睛掃描中發現作為黃斑變性指標的圖案。另一個軟體則學會了使用與AlphaGo相似的架構從頭開始下棋，並成為了有史以來最偉大的西洋棋選手，僅用了9個小時它就可以對抗自己。2018年12月，一項名為AlphaFold的計劃比其他競爭對手更準確地預測了複合材料清單中蛋白質的3D結構，這很大程度上為治療帕金森氏症和阿茲海默氏症等疾病提供了契機。

DeepMind對其開發的演算法感到特別自豪，該演算法可以計算出最有效的方法來給Google的資料中心製冷，其資料中心包含大約250萬台電腦伺服器。DeepMind在2016年表示，他們將Google的能源費用減少了40％，但一些內部人士表示，這種吹噓行為過於誇張。

早在DeepMind存在之前，Google就一直在使用演算法來最佳化其資料中心。一位Google的員工表示「他們只想擁有一些所謂的在Alphabet中有價值增值的Prso」。Google的母公司Alphabet為這些服務支付了DeepMind費用。2017年，DeepMind向Alphabet公司收取了5400萬英鎊。與DeepMind的管理費用相比，這個數字相形見絀。而那一年，它僅在員工身上花費了2億英鎊。總的來說，DeepMind在2017年損失了2.82億英鎊。

這對現金充裕的巨人來說雖然微不足道，但其他出現赤字的子公司卻引起了Alphabet的首席財務長Ruth Porat的注意。作為網路服務提供商的Google光纖（Google Fibre）就陷入了財務困境，因為其明確表示需要數十年之後才能獲得投資回報。私底下人工智慧研究人員都知道DeepMind最後是否會成為獨立的公司。

DeepMind在人工智慧推進方面很謹慎，這是其管理戰略的一部分，這也向當權者表明了其聲譽價值。在Google被指控侵犯用戶隱私和傳播假新聞的時候，這一點特別有價值。

DeepMind也很幸運能夠獲得最高層級的認可－－賴利·佩吉（Larry Page），他是Google兩位創始人之一，現在是Alphabet的首席執行長。佩吉是哈薩比斯唯一的交集可能就是佩吉的父親Carl在20世紀60年代研究過神經網路。佩吉表示在他的職業生涯早期，他就是為了建立一家人工智慧公司而建立的Google。

DeepMind對發刊管理的嚴格控制並不符合公司普遍存在的學術精神。一些研究人員抱怨說，發表他們的作品很困難：他們必須先進行內部審批，然後才能將工作提交給會議和期刊。

DeepMind認為，它需要謹慎行事，以避免嚇跑公眾，並破壞AGI的前景。但過於緊張可能會開始惡化學術氛圍並削弱員工的忠誠度。在Google收購之後的第五年，誰控制DeepMind的問題顯得至關重要。

該公司的創始人和早期員工即將獲得分紅，他們可以透過收購獲得的經濟補償離開（哈薩比斯的股票價值約為1億英鎊）。但一位與該公司關係密切的消息人士表示，Alphabet已將創始人的收益發放推遲了兩年。鑑於此，哈薩比斯不太可能跳槽。

他只對金錢感興趣，因為錢可以幫助他實現自己的人生。但是有些同事已經離開了，自2019年初以來，已有三名AI工程師離職。全球最著名的安全工程師之一班·羅利（Ben Laurie）現已返回其前任雇主Google。這個數字雖然很小，但DeepMind提供瞭如此寶貴且令人振奮的工作機會和豐厚的薪酬情況下，任何人其實都應該不會離職的。

直至目前，Google都沒有過於干涉DeepMind。但近期的一件事情使人們開始懷疑DeepMind還能保持多久的獨立性。

遭遇瓶頸

DeepMind一直計劃使用AI來改善醫療保健。2016年2月，它成立了一個新部門：DeepMind Health。該部門由該公司的聯合創始人之一穆斯塔法·蘇萊曼（Mustafa Suleyman）領導。的母親曾是一位NHS護士。他希望創建一個名為Streams的程式，當患者的健康狀況惡化時，該程式會警告醫生。

DeepMind從中獲得基於程式效果分成的費用。由於這項工作需要訪問有關患者的敏感訊息，蘇萊曼建立了一個由英國醫療保健與科技行業精英組成的獨立審查小組（IRP）。DeepMind這樣謹慎行事是非常明智的－－英國訊息專員隨後發現其中一家合作醫院違反了處理患者資料的法律。儘管如此，截至2017年底，蘇萊曼已與四家大型NHS醫院簽署了協議。

2018年11月8日，Google宣布創建了自己的醫療保健部門Google Health。五天後，又宣布DeepMind Health將被納入其母公司。

DeepMind似乎沒有收到什麼預警。根據訊息自由要求（Freedom of Information Act）所得到的訊息，它僅提前三天向合作醫院發布了變更通知。DeepMind拒絕透露有關合併的討論是何時開始的，但表示從通知到發布正式公告如此短的實踐是為了保證訊息透明度的。

蘇萊曼在2016年寫道：「在任何階段，患者資料都不會與Google的帳戶、產品或服務相關聯。」他的承諾似乎已被打破。（回應1843雜誌的問題，DeepMind說「在這個階段，我們的合約都沒有轉移到Google，而且只有得到我們合夥人的同意後他們才能轉移合約。Streams成為Google服務並不意味著患者數據... ...可被用於提供其他Google產品或服務。」）

Google的吞併激怒了DeepMind Health的員工。據知情人員表示，一旦吞併完成，更多員工將計劃離開公司。IRP的一名成員邁克·布拉肯（Mike Bracken）已經離開蘇萊曼了。據多位知情人士透露，布拉肯於2017年12月辭職，是因為擔心該獨立審查小組更多的是為了裝飾門面而並非真正為了應對訊息隱私方面的漏洞。

當布拉肯問蘇萊曼是否會給小組成員賦予非執行董事的問責制和治理權時，蘇萊曼發出了嘲笑。（DeepMind的一位發言人表示他們「並不記得存在」此事件）。IRP負責人Julian Huppert認為，該小組的管理「比布拉肯預期更為激進」，因為成員能夠公開發言而不受保密義務的約束。

這一事件顯示DeepMind的外圍運營容易受到Google的影響。DeepMind在一份聲明中表示，「我們都同意，將多方力量凝聚一起共同努力能夠增加資源。」這就引出了一個問題，即Google是否會將相同的邏輯應用於DeepMind的AGI工作。

大體上看，DeepMind看起來已經取得了很大的進步。它已經搭建了可學習執行超人類任務的軟體。哈薩比斯經常引用「打磚塊」（Breakout），這是Atari遊戲機上的遊戲。玩家控制一個可以在螢幕底部水平移動小平板，用它將一個球反彈到懸停在螢幕上方的方塊，球撞擊到方塊時會摧毀它們。當所有塊都被摧毀時，玩家獲勝。

如果平板沒有接到球那麼玩家就輸了。在沒有人工指導的情況下，DeepMind的程式不僅學會了玩這個遊戲，而且還研究瞭如何將球反彈進方塊背後的空間中，利用多次反彈來打破更多的方塊。哈薩比斯說，這證明了強化學習的力量和DeepMind電腦程式超越自然的能力。

這個演示非常令人驚訝，但哈薩比斯還是有所保留。如果虛擬平板略微往上移動一點點，程式就會失敗。DeepMind程式所學到的技能是如此受限制－－它甚至無法對環境的微小變化（比人類走路時對環境產生的微小影響還小）作出反應－－至少在沒有數千輪強化學習的情況下既是如此。但是現實世界已經內置了這樣的應對系統。

對於智慧診斷來說，沒有兩個身體的器官是完全一樣的。對於智慧機械，沒有兩個引擎可以以相同的方式進行調整。因此，將在虛擬空間中完善的程式發佈到現實世界其實充滿了困難。

DeepMind很少談到的第二個問題是，虛擬環境中的成功取決於獎勵功能的存在：允許程式衡量其進展的訊號。該程式學習到，發射小球到方塊上方的空間使其多次反彈能夠使得分上升。DeepMind與AlphaGo的大部分工作在於構建與這種複雜遊戲兼容的獎勵功能。不幸的是，現實世界並不提供如此簡單的獎勵。

進展很少能夠透過單一分數來衡量。即使在存在此類度量的情況下，政治挑戰也會使問題複雜化。將氣候問題的獎勵訊號（大氣中每百萬的二氧化碳顆粒數）與石油公司的獎勵訊號（股價）相協調，需要同時滿足許多有衝突動機的人。獎勵訊號往往非常弱。在身臨其中時，人類大腦基本無法接收任務成功度的直接反饋。

DeepMind的強化學習之路

DeepMind花費了大量的電腦電力後找到了解決這個問題的方法。為學習任何東西，AlphaGo都需要數千年的人類游戲時間。很多AI研究者對此提出質疑：這種解決方案是不可持續的。DeepMind承認存在這種含糊之處。它最近專注於星際爭霸2，一款策略電腦遊戲。

在遊戲早期做出的決定會在後期產生影響，這更接近於那些類似許多現實世界任務的錯綜複雜的延遲反饋。1月份，DeepMind軟體在一場示範中擊敗了一些世界頂級的人類玩家；雖然許多功能依然受到大量限制，但這仍然令人印象深刻。該程式也開始透過遵循人工任務主管的回饋來學習獎勵功能。但是，將人類指令置於流程循環中可能會喪失無人電腦處理所帶來的規模與速度紅利。

DeepMind和Google的現任和前任研究人員（由於嚴格的保密協議而要求匿名）對於DeepMind透過這些方法達到AGI的可能性表示懷疑。這些人認為，過於關乎在模擬環境中的優秀表現使得獎勵訊號問題難以解決。然而，這種方法是DeepMind的核心。它有一個內部排行榜，互相競爭團隊的程式爭奪對虛擬域的掌控。