加州大學透過世界模型訓練機器狗,從無到有1小時內可學會走路、翻身和通過障礙物

加州大學透過世界模型訓練機器狗,從無到有1小時內可學會走路、翻身和通過障礙物

據英國《每日郵報》報導,美國加州大學柏克萊分校的研究人員近日公佈了一款機器狗,可以在一小時內學會走路和翻身,甚至能通過特定的障礙物。在研究人員發佈的一段影片中,可以看到這只機器狗一開始只能在地上掙扎,四條腿不斷在空中揮舞。

美國加州大學柏克萊分校的研究人員近日公佈了一款機器狗,可以在一小時內學會走路和翻身,甚至能通過特定的障礙物。

然而,僅僅10分鐘之後,它就可以走上幾步了;一個小時後,它的步伐就變得輕鬆很多,甚至在被一位研究人員用棍子推倒之後,還能自己翻身爬起來,繼續導航並行走到預定目標。

與許多機器人不同的是,研究人員並沒有事先在模擬系統中向這個機器狗發佈指令。丹尼爾·哈夫納(Danijar Hafner)是美國加州大學柏克萊分校的人工智慧研究者,他和同事們利用強化學習的方法,對這個機器狗進行了訓練。

研究人員使用了一種名為“Dreamer”的演算法,利用過去的經驗建立了一個真實世界的模型,供機器人學習。上圖是機器人在30分鐘的樣子。

「通常情況下,機器人在模擬系統中會通過大量的試錯來學習,這比即時學習要快得多。」哈夫納解釋道,「在模擬中解決站立和行走等任務後,學習到的行為才會在一個物理機器上執行。但模擬無法捕捉現實世界的複雜性,因此在模擬中表現良好的行為可能無法解決現實世界中的任務。」

一位與該研究無關的科學家表示,強化學習將成為未來機器人操控的基礎工具。上圖是40分鐘的機器人。

哈夫納和他的合作者——菲利普·吳(Philipp Wu)和亞歷杭德羅·埃斯康特雷拉(Alejandro Escontrela),在這項研究中所用的機器學習類型,其實是通過獎勵機器在環境中採取某些行動的方式,對其演算法進行訓練。

“Dreamer〞演算法最近展現出巨大的前景,它可以透過在一個學習世界模型中制定計畫,從少量的互動中學習。

研究人員在論文中寫道,「學習一個世界模型來預測潛在行動的結果,可以在想像中進行計畫,從而減少在現實環境中所需的試錯次數。」

1個小時後,這款機器狗已經能很好地導航、行走,還能自己翻身。

在機器狗學會走路後,它還可以學會適應其他不可預測的結果,比如被研究人員用棍子戳倒。強化學習已經使機器人在棋類和電子遊戲等方面大大超過了人類,但教會機器人在現實世界中做出正確的行動依然極具挑戰性。歸根究底,這是因為工程師們必須根據科學家是否希望這種行為得到獎勵來進行程式。

「將強化學習應用到實體機器人上是一個巨大的挑戰,因為我們無法加快現實世界中的時間,而機器人模擬器往往無法足夠準確地捕捉現實世界。」研究人員解釋道。

「我們的計畫表明,學習世界模型可以大大加快機器人在物理世界中的學習速度。這將使強化學習更接近於解決複雜的自動化任務,比如製造和組裝任務,甚至是自動駕駛汽車。」

機器狗正在通過障礙物

萊雷爾·平托(Lerrel Pinto)是紐約大學的計算機科學助理教授,致力於研究機器人和機器學習,他補充道:「機器人學家需要為他們希望機器人解決的每一個任務或問題進行這樣的訓練。」這將意味著大量的程式碼和一系列根本無法預測的情況。

研究團隊在論文中列舉了這類技術所面臨的其他障礙。「儘管Dreamer算法展示了很有前景的結果,但在硬體上進行長時間的學習會給機器人造成磨損,可能需要人類的干預或修復。」他們在研究摘要中寫道,「此外,通過更長時間的訓練,我們需要做更多的工作來探索Dreamer算法的極限和我們的基線。」

「最後,我們認為,將快速真實世界學習和模擬器的優勢潛在地結合在一起,以解決更具挑戰性的任務,將是一個影響深遠的未來研究方向。」研究人員補充道。

哈夫納希望未來能教會機器狗服從人類的口頭指令,或許還能在機器狗身上安裝鏡頭,讓它具有視覺能力。通過這些改進,研究人員希望這款機器狗最終能做到一些更典型的狗類行為,比如把丟出去的東西撿回來。

在另一項獨立進行的新研究中,德國馬克斯·普朗克智慧系統研究所(MPI-IS)的研究人員開發了一款名為“Morti”的機器狗,它的腳上安裝有傳感器,可以通過一種包含傳感器數據的複雜算法輕鬆學習走路。

加州大學透過世界模型訓練機器狗,從無到有1小時內可學會走路、翻身和通過障礙物

「作為工程師和機器人學家,我們希望製造一個具有動物一樣的反射能力,並能從錯誤中學習的機器人,從中尋找答案。」MPI-IS動態運動研究小組的前博士生菲利克斯·魯珀特(Felix Ruppert)在一份聲明中說,「對一隻動物而言,跌倒了能算是一個錯誤嗎?如果只發生一次的話就不算;但如果它經常跌倒,那就是錯誤了。這就讓我們能以某種方法來瞭解機器人行走的情況。」

機器狗Morti通過一種複雜的算法來指導自己進行學習。來自足部傳感器的信息與機器脊髓模型的數據相匹配,而脊髓模型可以在機器人的計算機中作為程式執行。機器狗通過不斷比較設定和預期的傳感器信息、執行反射回路並調整其運動方式來學習走路。

波士頓動力公司的迷你機器狗SpotMini

在2017年11月發佈的一段視訊中,美國波士頓動力公司首次展示了其開發的最先進的機器狗SpotMini。在此之前,該公司還發佈了一款1.7米高的人形機器人,名為“Atlas”。此次發佈的是機器狗Spot的輕量級新版本。

視訊中,這只機器狗在院子里「撒野」似的小跑。波士頓動力公司在其網站上寫道:「Spot是一款小型的四足機器狗,很適用於辦公室或家庭環境。」它的重量為25公斤,加上機械臂後的重量則為30公斤。

加州大學透過世界模型訓練機器狗,從無到有1小時內可學會走路、翻身和通過障礙物

美國波士頓動力公司的機器狗SpotMini在草坪上小跑

該公司稱,Spot是一款全電動機器狗,充電後可以執行約90分鐘,具體時長取決於它在做什麼。此外,Spot也非常安靜,被波士頓動力公司稱為其製造的「最安靜的機器人」。Spot於2016年首次亮相,之前的一款迷你版Spot有一個可伸長的脖子,看起來十分怪異。不過,在該公司之前的一段影片中,這款機器狗已經可以幫忙做家務了。

從這段視訊中可以看到,機器狗走出了波士頓動力公司總部,進入了一棟住宅。在那里,機器狗利用可彎曲伸長的脖子將杯子放入了洗碗機,還把一個罐子扔進垃圾桶。有一次它踩到掉在地上的香蕉皮,摔了一跤,但利用可伸縮的脖子,它又重新站了起來。

加州大學透過世界模型訓練機器狗,從無到有1小時內可學會走路、翻身和通過障礙物

波士頓動力公司的機器狗Spot利用可彎曲伸長的脖子將杯子放入洗碗機

波士頓動力公司表示,機器狗Spot安裝有多種傳感器,包括深度鏡頭、固態陀螺(IMU)和四肢上的本體感覺傳感器。這些傳感器有助於機器狗的導航和運動操作。Spot還可以自主執行一些任務,但通常需要人類進行高級別的指導。

 

2022年07月21日 11:15 104 次閱讀 稿源:新浪科技 0 條評論

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則