在失敗中學習！MIT新研究顯示，機器可以像嬰兒一樣學會理解人類目標

在Warneken和Tomasello關於人類社會智力的經典實驗中，一個18月大蹣跚學步的幼兒看著一個男人抱著一堆書走向一個未開封的櫃子。當男子到達櫃子時，他笨拙地將書在櫃門上撞了幾下，然後發出疑惑的聲音。

接下來發生了一件不可思議的事情：幼兒提出要幫忙。

在推斷出男子的目標後，幼兒走到櫃子前，打開櫃門，讓男子把書放在裡面。但是，幼兒的生活經驗如此有限，怎麼會做出這樣的推斷呢？

最近，電腦科學家把這個問題重新引向了電腦：機器如何做到相同的事情呢？

工程化這種理解的關鍵部分可以說是我們最人性化的地方：我們的錯誤。

就像蹣跚學步的孩子僅僅從他的失敗中就能推斷出這個人的目標一樣，推斷我們目標的機器也需要受到我們錯誤行動和計畫的說明。

為了在機器中捕捉這種社交智慧，來自麻省理工學院電腦科學與人工智慧實驗室（CSAIL）和大腦與認知科學系的研究人員創造了一種能夠推斷目標和計畫的演算法，即使這些計畫可能失敗。

這類研究最終可用於改進一系列輔助技術、協作或護理機器人，以及Siri和Alexa等數位助理。

有關這項研究的新論文主要作者，麻省理工學院電氣工程和電腦科學系的博士生Tan Zhi-Xuan 說：

「這種對錯誤進行解釋的能力對於構建能夠穩健地推斷並按照我們的利益行事的機器來說可能是至關重要的。否則，人工智慧系統可能會錯誤地推斷，由於我們未能實現我們的高階目標，這些目標畢竟不是我們想要的。我們已經看到，當演算法以我們對社群媒體的反射性和無計畫的使用為食，將我們引向依賴和兩極化的道路時，會發生什麼。理想情況下，未來的演算法將認識到我們的錯誤、壞習慣和非理性，並幫助我們避免而不是強化它們。」

為了創建他們的模型，該團隊使用了麻省理工學院最近開發的一個新的AI程式編輯平台Gen，將符號化（人類可讀型）AI規劃與貝氏推論相結合。貝氏推論提供了一種將不確定信念與新數據相結合的最佳方式，被廣泛用於金融風險評估、診斷測試和選舉預測。

該團隊的模型表現比現有的一種名為貝氏逆向強化學習（BIRL）的基礎方法快20到150倍，該方法透過觀察代理的行為來學習代理的目標、價值或獎勵，並試圖提前計算完整的政策或計畫。新模型在推斷目標方面的準確率達到了75%。

加州大學柏克萊分校的Smith-Zadeh工程教授Stuart Russell說：「人工智慧正處於放棄『標準模式』的過程中，在這種模式下，一個固定的、已知的目標被賦予機器。相反，機器知道它不知道我們想要什麼，這意味著如何從人類行為中推斷目標和偏好的研究成為人工智慧的核心課題。這篇論文認真對待這一目標，重點是，它的方向是朝著建立模型進而顛覆人類從目標和偏好產生行為的實際過程。」

如何實現

雖然在推斷代理的目標和慾望方面已經有相當多的工作，但這些工作大多假設代理為實現其目標而採取最佳行動。

然而，團隊特別受到一種常見的人類規劃方式的啟發，這種方式基本上是次佳的：不是提前把所有的事情都規劃好，而是只形成部分計畫，執行後再從新規劃。雖然這樣做可能會因為「提前」思考不足而導致錯誤，但也減少了認知負荷。

例如，想像你正在看你的朋友準備食物，你想透過弄清他們在做什麼來幫忙。你猜測你的朋友接下來可能採取的幾個步驟：也許是預熱烤箱，然後做蘋果派的麵糰。然後，你只「保留」與朋友實際做的事情保持一致的部分計畫，然後你再重複這個過程，從那裡開始提前計畫幾步。

一旦你看到你的朋友做了麵糰，你就可以把可能性只限制在烘焙食品上，並猜測他們接下來可能會切蘋果，或者買一些胡桃來做餡餅。最終，你會把你朋友不可能做的菜品計畫全部排除，只保留可能的計畫（即派的配方）。一旦你足夠確定是哪道菜，你就可以主動幫忙了。

該團隊的推理演算法被稱為「順序逆向計畫搜索（SIPS）」，按照這個順序來推斷代理人的目標，因為它在每一步都只做部分計畫，並在早期削減不可能的計畫。由於該模型每次只提前幾步進行計畫，所以它也考慮到了代理「你的朋友（前文例子）」可能也在做同樣的事情。這包括由於有限的計畫而導致錯誤的可能性，例如在打開冰箱之前沒有意識到你可能需要兩隻手空閒。透過提前檢測這些潛在的故障，該團隊希望這個模型可以被機器用來更好地提供幫助。

「我們早期的一個見解是，如果你想推斷某人的目標，你不需要比他們想得更遠。我們意識到，這不僅可以用來加快目標推斷的速度，還可以用來從過於短視而無法成功的行動中推斷出預期目標，這使得我們從擴大演算法規模轉向探索解決當前人工智慧系統更根本的侷限性的方法。」麻省理工學院首席研究科學家Vikash Mansinghka如是說，他是Tan Zhi-Xuan的聯合顧問之一，同時還有麻省理工學院大腦和認知科學教授Joshua Tenenbaum。「這是我們更大的moonshot的一部分，即對18個月大的幼兒感知進行逆向工程。」

這項工作的概念建立在Tenenbaum小組早期認知模型的基礎上，展示了兒童甚至是10個月大的嬰兒對他人目標所做的較簡單的推斷如何被量化建模為貝氏逆向規劃的一種形式。

雖然到目前為止，研究人員只在固定目標集的相對較小的規劃問題中探索推理，但他們計畫透過未來的工作來探索人類目標和計畫的更豐富的層次結構。透過對這些層次結構進行編碼或學習，機器或許能夠推斷出更多種類的目標，以及它們所服務的深層目的。

「雖然這項工作只代表著一小步，但我希望這項研究能夠為構建真正理解人類目標、計畫和價值觀的機器奠定一些必要的哲學和概念基礎，」Xuan說。「這種將人類建模為不完美推理者的基本方法感覺非常有前途。現在，它讓我們能夠推斷出計畫什麼時候是錯誤的，也許它最終也會讓我們推斷出人們什麼時候持有錯誤的信念、假設和指導原則。」

Zhi-Xuan、Mansinghka和Tenenbaum與電氣工程和電腦科學研究生Jordyn Mann和博士生Tom Silver一起撰寫了這篇論文。他們將在NeurIPS 2020在線上展示他們的成果。

資料來源：Building machines that better understand human goals
本文授權轉載自大數據文摘