柏克萊和Deepmind前赴後繼，只為教出一個會做家務的機器人？

家事工作是一個集視覺、觸覺、運動、關節控制等為一體的任務，綜合性很強，這是其他碎片應用不具備的環境，對訓練多元功能協作的智慧體很有幫助。

新年伊始，柏克萊就傳出新進展，他們教機器人做家務的能力更上一層樓了。

在最新的論文中，柏克萊介紹了他們是如何讓機器學會讀懂人類的潛台詞或未盡之意，而不是傻乎乎地按照字面意思或者獎勵系統來機械地運動。

舉個例子，當餐桌機器人上菜時，它會知道躲避酒櫃，或者在停電等緊急情況下停止端盤子，而不是為了盡可能多地得到獎賞（端一個盤子完成後，系統會提供一個獎勵），而馬不停蹄地送盤子。甚至還可能直接把盤子打碎，這樣就可以獲得更多的「盤子」（獎勵）了……

看到這個新聞時，很多人的第一反應是：機器人真笨啊，這麼簡單的任務兩歲的小孩子都會做。第二反應是柏克萊教機器人做家務的執念也未免太深了吧！因為他們之前還開發過引擎教機器人鋪床單、疊衣服、收拾桌面，總之，非要讓機器人學會做家務。

想要挑戰家務技能的除了柏克萊，還有Deepmind。去年2月，Deepmind就提出了一種新的學習典範「預訂輔助控制SAC-X」，用來幫助機器人學會整理桌子和堆疊衣物。

前不久喬治亞理工學院的研究人員，也發表了新的強化學習演算法，可以教會機器人穿衣服。

為什麼這麼多AI巨頭不約而同地走上了家務培訓的道路？未來我們能擁有《底特律：變人》中卡菈小姐那樣溫柔能幹的家政機器人嗎？

家務三十六計：家政機器人都掌握了哪些技能？

首先我們來看看，在這麼多人類菁英、AI巨頭的助攻下，機器人都學會了哪些家務小技能。

先來說說「家政狂魔」柏克萊。

早在去年，我們就解讀過柏克萊的通用預測模型，它可以幫助機器人自主學習和掌握很多一般基礎技能，在此基礎上學習和預測主人的意圖和任務的共性，從而可以舉一反三執行廣泛的任務類別，成長為一個優秀的「家務多面手」。比如摺疊短褲毛巾、挪移蘋果、整理桌面等等。

柏克萊還推出了一個深度學習模型Dex-NET，基於角點檢測和抓取策略，讓機器人完成鋪床單這一艱巨任務。

最值得一提的是新的研究成果「偏好優化模型」。機器人不僅能完成一般性任務，而且還能夠推斷出更佳的解決方法，適應具有隱藏條件的複雜現實環境。

比如在常規的「actor-critic」增強學習回饋機制中，主人要求機器人導航前往紫色的門，那麼機器人就會選擇最短路徑（傳統意義上的最佳解），而忽略這麼做會打碎路上的花瓶。

因為機器人無法獲知，主人是否關心花瓶會不會被打碎。但如果機器人能自己模擬和演練過去發生過的行為軌跡，比如主人一直都繞著花瓶走，說明她是重視花瓶的完整狀態的，由此推斷出繞過花瓶是最有可能獲得獎勵、應該積極追求的目標。

機器人擁有洞察隱藏條件的能力，意味著它們可以從一種狀態中學習人類的偏好，系統無需事無鉅細地列出所有現實環境中的因果聯繫和條件，獎勵函數也不再是線性機械的，機器人可以自主模擬和學習過去的經驗，判斷和應對未知的動態環境。

對於做家務這個任務來說，判斷主人的喜好來進行作業，可以說是必殺技了。

與柏克萊相比，Deepmind其實對醫療這種高階精密任務更感興趣。但這並不妨礙它在家政領域發光發熱。

Deepmind的「預訂輔助控制SAC-X」模型，就旨在幫助機器人學會探索和掌握家務方面的基本技能。就像嬰兒在爬行和走路之前必需發展出協調和平衡能力一樣，SAC-X也有助於幫助機器掌握幾種核心的視覺－運動技能。

比如運用模擬手臂，按照正確的順序，即使沒有見過這各任務，也能從零開始學習，並按要求順利地把物體舉起來。這樣就能在無需額外編輯程式的前提下，完成整理桌面這樣的複雜任務。

此外，喬治亞理工學院將布料引入學習框架，教機器人學會穿衣服的論文也非常別出心裁。

因為衣服的布料材質各不相同，穿衣服的動作也無法遵循特定的運動軌跡，會和布料產生複雜的互動變化，機器人必須不斷練習，對各個子任務（拽起邊緣、扯平衣角等）進行模擬和最佳化，在不斷變化的環境條件中學習到穩定的創意控制策略，最終完成穿不同衣服的任務目標。無論襯衫、套頭毛衣，還是外套，都是很妥當。

聽起來，好像大部分家務工作機器人都可以駕馭嘛，但讓人感到難過的是現實中能夠見到的家務機器人，幹起活來依然是一副又慢又笨的蠢樣子。

例如由柏克萊設計、Rethink Robotics公司開發的家庭助手，疊一個毛巾就要15分鐘；而加州 FoldiMate推出的智慧型洗疊機器，可以按照程式把衣服疊成需要的方塊，但需要人手動放置在展台上，並沒有節省多少人力，售價還高達980美金（約3萬元台幣）……嗯，還是自己動手吧！

不是比人慢，就是比人貴，靠機器人做家務性價比實在是太低了。那麼，既然不能真的幫人類做家務，教機器人學習這些技能，究竟有何意義？

為什麼是做家務，不能去工廠搬磚嗎？

這麼多研究人才花盡心力，要是去教小學生大概都能讓他考上大學了，幹嘛非要讓機器人做家事呢？

原因恐怕在於，做家事提供了一個從零開始學習複雜控制任務的訓練環境，這對通用性機器智慧來說至關重要。

首先，家事工作的真實性和多樣性，有助於智慧體學會如何用最少的先驗知識來解決複雜問題。

先驗知識指的是一種不依賴於經驗總結（類似編寫好的程式，從結果推導過程）的一種「元能力」，透過觀察學會推理和判斷。而機器人就沒有這種「天生的」知識，但顯然我們也不可能將機器人服務的每個家庭、每個可能任務都進行預先編輯程式，這時，訓練機器人的通用能力就顯得尤為關鍵了。

儘管機器永遠不可能擁有像人一樣的先驗能力和通用性，在各個學科、各個工作崗位都能表現差不多。但在很多垂直領域，比如工業、家務、語言等，先驗能力強的機器智慧體就可以低成本、高適應性、靈活地完成工作任務，解決那些現在只有人才能解決的問題。

另外，家事工作是一個集視覺、觸覺、運動、關節控制等為一體的任務，綜合性很強，這是其他碎片應用不具備的環境，對訓練多元功能協作的智慧體很有幫助。

比如柏克萊教機器人從垃圾桶中拾取原本看不見的物體，就需要透過鏡頭採集深度圖像，形成模擬數據集，再利用該數據集訓練質量卷積神經網路（GQ-CNN），對物體進行圖像分割，確定抓取嘗試成功的可能性，最後形成抓取成功概率最高的策略，再對夾持器關節進行即時精密控制，才能最終完成這一操作。一次訓練，多種收穫。

更重要的是，家務的操作環境比起工業機器人、電子遊戲等，都更加鬆散，充滿變化，任務的主觀預期和隱藏含義更難界定和預測，無形中加大了訓練難度。與此同時，家事工作的訓練成本也比較低，也更容易為大眾所理解，社會效益和營銷價值雙豐收。

相比對機器狗拳打腳踢、在《Dota》中血虐真人玩家，讓機器做做家務簡直堪稱是最政治正確、價廉物美的訓練方式了。

做完家務，這些研究還有什麼用？

在家政機器人背後，實際隱含的是一種智慧體創生的本質邏輯：在複雜的環境中自己探索出解決隨機和非結構化問題的合理方案，可以安全地與環境互動，同時高效地完成任務。

具體一點說，訓練家政機器人，主要有一下三個方面的好處：

一是培養更具有通用智慧的機器人，在不需要過多指導的前提下，執行一系列任務，提高機器自動化的安全性和工作效率。

二是有助於開發用於分層規劃、感知和推理的演算法，可以幫助自動駕駛、工業自動化、智慧物聯網等等領域解決應用問題；

三是推動零樣本學習、少樣本學習等技術的進步。在缺乏外部獎勵信號的情況下，演算法也能很好地推理出行為的意圖，可以顯著提升電商、內容產品推薦系統的使用體驗。

這樣，大家恐怕就不難理解，為什家務會成為通用智慧體成長道路上無法繞過的「墊腳石」了。

本文授權轉載自腦極體

FB 建議貼文

柏克萊和Deepmind前赴後繼，只為教出一個會做家務的機器人？

家務三十六計：家政機器人都掌握了哪些技能？

為什麼是做家務，不能去工廠搬磚嗎？

做完家務，這些研究還有什麼用？

直擊《MSI 龍魂城解鎖行動》！四大亮點沉浸體驗、限定筆電搶先看，還有女神陪你解任務拿好禮！