檢察官、行刑者與道德家：為 AI 加上安全機制？

不久之前，Deepmind在博透露了這樣一個消息，針對AI模型可能表現出的混亂和失控，他們準備研發一種「AI保險機制」，在緊要關頭把AI「斷電」。一旦發現AI的惡意傾向，就主動終止AI的活動。

但是，這還有一些問題需要我們來探索：假如真的有AI「保險開關」這種裝置，它要在哪些情況下終止AI工作？類似領域還有哪些方法在嘗試保證AI安全？為AI裝上安全鎖這種想法，又有哪些困難？

要防範的，是哪些「AI之惡」？

首先，還是要先把「AI之惡」打上引號。這就像火的使用，大概是人類歷史上造成損失最嚴重的一種技術應用，但至少今天沒有人討論「火之惡」或者「普羅米修斯的原罪」。

而AI有點不同的是，深度神經網路的複雜性構成了AI執行邏輯在某些環境下的不可解，也就是廣受關注的AI黑箱問題。美國小說家霍華德‧洛夫克拉夫特堅定的認為，人類最大的恐懼，就是對未知的恐懼。

而深度學習作為今天AI技術的主要實踐方式，確實還蒙有太多面紗。姚期智院士就曾判斷，今天深度學習中有很多東西是非科學的。對其神祕性的破解，已經成為AI學科的主要問題。

那麼依舊神祕的AI，在應用中帶來了哪些危險可能性呢？

關於AI的負面報導雖然遠低於正面案例數量，但其實數量也已經不少。歸結起來，有三個方面的危險，是我們今天主要需要面對的：

一、從資料到歧視

AI是能學會罵人和種族歧視的，這事兒想必大家都知道。最出名的案例，就是2016年3月，微軟上線了名為Tay 的聊天機器人，但是上線不到一天，Tay 就從一個單純可愛的19歲女孩變成了一個滿口髒話與種族歧視言論的「AI瘋子」，於是微軟緊急下架了這款產品。這種情況，已經在多個AI聊天應用程式與語音助手中顯現了出來，甚至很多導購、安全辨識類的AI應用程式，也都悄然學會了見人說人話，見鬼說鬼話的推銷本事。

其本質問題在於，AI會去學習吸收社群網路上的對話資料，然而一頓操作下來，學到的都是不堪入目的東西。深度學習是建立在大數據基礎上的，但如果資料中夾雜了不那麼美好的資料，AI就可能將這些內容帶入為行為模式。

但是如何分辨什麼才是好內容呢？這個模稜兩可的問題依舊沒什麼好的答案。

二、作為武器與黑色產業工具的AI

人不止可以教壞AI，還可以直接運用AI來作惡。這個領域的案例屢見不鮮，英國在2015年就開始發現利用AI模型模仿使用者語氣來進行的郵件與電信詐騙；很多駭客展現了利用AI來盜取密碼和破解安全鎖的能力；甚至在國內，很多不法分子已經開始使用AI辨識技術來刷電商帳戶和訂單，從而支撐黑色產業的執行。

三、不可靠的機器直覺

AI作為一種演算法，顯然是不以人的常識為常識的，但是很多時候無論普通人還是科學研究人員都會忽視這一點。著名的案例是Deepmind在一個賽艇遊戲中訓練AI時，發現深度學習模型最終得出的結論不是一般人類玩家選擇的路線，而是在遊戲中瘋狂轉圈。雖然是個遊戲，但卻發人深醒，比如AI在無人駕駛場景裡，或許是不按照人類交通規則來思考問題的，它可能直接從高架橋上飛下去，或者選擇逆行來獲得更好的通過效率。

這也不是危言聳聽，今天的研究已經發現，在路牌上做一點點手腳，就可能對電腦視覺產生干擾。畢竟機器即使能看，也不是人類的「看法」。

顯然，這些問題在未來的AI應用中都足夠複雜與危險。那麼問題來了之後，解決方案有哪些呢？

檢察官、行刑者與道德家：我們用什麼幫AI上鎖？

AI本身的失控可能與安全隱患，或許是不同於人類歷史上任何技術風險的。它吸納大量資料，又進行了複雜的內部轉換，所以留給人類的困難之處在於，它不是像汽油或電力那樣具有簡單的安全規律，而是難以捉摸的隱祕bug。

我們經常聽AI開發者講述這樣一個情況：模型跑了一遍，OK挺好的，再跑一遍，出問題了，哪出的問題，不知道……再多來兩遍，好像又好了？

顯然在工業這樣的關鍵生產領域，部署這樣天馬行空的員工是不合適的。那麼如何為AI裝上安全保險裝置呢？可以看到今天業界有這樣幾種想法。需要注意的是，這不是涇渭分明的流派之爭，真正在實踐AI安全的時候，是需要綜合解決方案共同努力的。

一、行刑者

話題回到我們最開始提到的DeepMind。他們正在研發的AI安全技術，形像一點形容就是在複雜AI任務的背後，站立一位隨時待命的「AI行刑者」。透過再研發一個功能強悍，有一套自身安全邏輯的AI系統，基於強化學習機制，來隨時監控其他AI模型的工作。一旦有出格舉動，馬上跳閘斷電。

事實上，「可中斷」概念一直都是DeepMind在AI安全領域的核心理念。去年12月，他們就發佈了名為《安全可中斷智慧體》的研究成果，展示了如何保證在中斷再啟動的環境下，智慧體的執行效果不會受損。

讓AI去監視AI，雖然技術上非常尖端，也留有若干問題，但大概是未來AI安全鎖的主要研究方向，因為面對越來越複雜的深度神經網路，其他問題追溯模式可能會消耗難以承擔的人工成本。

然而這種新技術帶來的首要疑惑，顯然是「誰來監督監督者」？

二、檢察官

無論是歧視還是錯誤的機器直覺，在本質上都可歸因於深度學習的黑箱性。那麼是不是有方法可以去透視黑箱，讓人類研發者找到問題AI的出錯點，從而去修正而不是魯莽地中斷它呢？

事實上，解決黑箱才是AI安全領域與應用場景的主要努力方向。我們今天已經可以看到越來越多的黑箱解釋工具出現在科學研究甚至產業領域。

今天解釋黑箱的主要方式有兩種，一種是用AI來檢索AI，比如利用注意力機制，訓練一個神經網路模型專門去複製追蹤其他AI模型的執行軌跡，進而找出錯誤訓練結果的訓練來源，幫助研發者進行修正。

另一個想法是透過一些工具，達成深度學習模型的結構可視化，也就是說讓黑箱變成玻璃箱。進而當AI出錯，研發人員可以相對簡單的自行查詢每一層的訓練過程，找到問題所在。

然而無論是AI檢察官，還是人類檢察官，今天這些黑箱可解釋性技術普遍都只能應對不那麼複雜的深度學習模型。而且普遍需要大量人工來參與其中，又把人工智慧變成了「人工+智慧」，而且所耗費的人力必須具備相當的技術水準。

三、道德家

無論從何種方向上看，阻止AI作惡在今天都不僅僅是一個技術問題。比如訓練資料的道德標準夠不夠正，很多程度取決於開發者的道德標準；再比如能否克制對開發AI武器、AI監視工具的渴望，應該是一個社會與國際責任的問題；而很多AI歧視問題，出自於背後開發者希望提高商業效率的目的，這也是個道德問題。

為了預防這些問題氾濫，AI的安全鎖顯然不僅應該是一把技術之鎖，而應該引入廣泛的社會機制。今年2月，OpenAI、牛津大學、劍橋大學等14家機構和高校發佈了一份名為《人工智慧惡意使用》的研究報告。報告指出，應該承認今天人工智慧的研究成果是一把雙面刃。而為了控制人工智慧帶來的風險，政策制定者應該與技術人員密切合作，調查、預防和緩解人工智慧可能的惡意使用方式。並且應該在人工智慧領域優先形成規範和道德框架；討論這些人工智慧挑戰時所涵蓋的利益相關者和專家範圍應該擴大。