為機器人設計的RT-2模型,Google讓機器人也能如ChatGPT般聽懂你的命令並回應

為機器人設計的RT-2模型,Google讓機器人也能如ChatGPT般聽懂你的命令並回應

7 月 29 日,《紐約時報》的記者在Google實驗室,率先看到了Google最新推出的 RT-2 模型驅動的機器人。一個單臂機器人站在一張桌子前。桌子上坐著三個塑料雕像:獅子、鯨魚和恐龍。工程師給機器人發出指令:「撿起滅絕的動物。」機器人呼呼地響了一會兒,然後手臂伸出,爪子張開落下。它抓住了恐龍。

《紐約時報》描述道:「直到上週,這一展示還是不可能的。機器人無法可靠地操縱它們以前從未見過的物體,它們當然也無法實現從『滅絕的動物』到『塑膠恐龍』的邏輯飛躍。」

雖然仍然存在於展示之中,且Google並不打算立即進行更大規模的發佈或者對其進行商業化,但這一展示已經足以展現大型語言模型為機器人能夠帶來的機遇的一角。

在大型語言模型時代到來之前,人們訓練機器人,通常針對每個任務進行最佳化,比如抓取某種玩具,需要足量的資料,機器人才能精準地從各個角度、各個光線下識別這種玩具,抓取成功。而讓機器人意識到自己有抓取玩具的任務,也需要對機器人進行程式才能解決。

而大型語言模型的智慧和泛化能力,讓人們看到瞭解決這些問題,走向通用機器人的一道曙光。

將 Transformer 運用到機器人中

Google新的 RT-2 模型,全稱為 Robotic Transformer 2,運用 Transformer 架構作為其模型的基座。

2018 年被提出的 Transformer 架構,是目前火遍全球的大型語言模型(LLM)的最底層的基座,但事實上,作為一種架構,Transformer 不止可以應用於大型語言模型當中,也可以用於訓練其他類型的資料。早在今年 3 月份,Google就發佈了 PaLM-E,是當時世界上最大視覺語言模型(VLM)。

大型語言模型中,語言被編碼為向量,人們為模型提供大量的語料,使其能夠預測出人類通常下一句會說什麼,借此生成語言回答。

而在視覺語言模型中,模型可以將圖像資訊編碼為與語言類似的向量,讓模型既能「理解」文字,又能用相同方式「理解」圖像。而研究員們為視覺語言模型提供大量的語料和圖像,使其能夠執行視覺問答、為圖像新增字幕和物品識別等任務。

無論是圖像還是語言,都是相對容易大量獲取的資料。因此,模型很容易取得令人驚豔的成果。

而想使用 Transformer 架構來生成機器人行為,卻有一個很大的難點。涉及到機器人動作的資料非常昂貴。

視覺和語言資料都來自於人類,是被動資料,而機器人的動作資料,全部是來自於機器人的主動資料。比如我想研究機器人倒咖啡的動作,不管是寫程式碼讓機器人執行,還是利用其他的方式讓機器人執行,都是需要機器人實際執行一遍這個操作才能得到這個資料。因此,機器人的資料與語言和圖片的規模和量級是完全不一樣的。

為機器人設計的RT-2模型,Google讓機器人也能如ChatGPT般聽懂你的命令並回應

在Google研究的第一代機器人 Transformer 模型 RT-1 中,Google第一次開啟了這樣的挑戰,嘗試建立一個視覺語言動作模型。

為了建立這樣的模型,Google使用了 13 個機器人,在一個搭建的廚房環境中耗時 17 個月收集到了機器人在 700 多個任務上的主動資料組建的資料集。

資料集同時記錄了三個維度:

視覺-機器人在執行任務操作時的鏡頭資料;

語言-用自然語言描述的任務文字;

和機器人動作-機器手進行任務時在 xyz 軸和偏轉資料等。

雖然當時得到了較好的實驗效果,但可想而知,想要進一步增加資料集內資料的數量,將是一件非常難的事情。

圖片來源:Google AI 介紹視訊而 RT-2 的創新之處在於,RT-2 使用前面所述的視覺語言模型(VLM)PaLM-E 和另一個視覺語言模型 PaLI-X 作為其底座-單純的視覺語言模型可以通過網路級的資料訓練出來,因為資料量足夠大,能夠得到足夠好的效果,而在微調(fine-tuning)階段,再將機器人的動作資料加入進去一起微調(co-finetuning)。

這樣,機器人相當於首先已經擁有了一個在海量資料上學習過了的常識系統-雖然還不會抓取香蕉,但是已經能夠認識香蕉了,甚至也知道了香蕉是一種水果,猴子會比較喜歡吃。

而在微調階段,通過再加入機器人在真實世界中看到香蕉後是如何抓取香蕉的知識,機器人就不但擁有了在各種光線和角度下識別香蕉的能力,也擁有了能夠抓取香蕉的能力。

在這種方式下,用 Transformer 架構訓練機器人所需的資料顯著降低了。

RT-2 在微調階段直接使用了 RT-1 訓練階段使用的視覺/語言/機器人動作資料集。Google給出的資料顯示,在抓取訓練資料中原來出現過的物品時,RT-2 的表現與 RT-1 同樣好。而因為有了「擁有常識的大腦」,在抓取之前沒有見過的物品時,成功率從 RT-1 的 32% 提升到了 62%。

為機器人設計的RT-2模型,Google讓機器人也能如ChatGPT般聽懂你的命令並回應

 

使用自然語言與機器人互動的未來

學術上,RT-2 展現的很強的泛化性有可能解決機器人訓練資料不足的難題。在此之外,RT-2 給人的直觀震撼還是來自於它所展現的智慧的一面。

在實驗中,研究員希望它能夠拿起一個「能夠用作錘子的東西」,機器人在一堆物品中拿起了石頭,而在被要求拿起一個提供給疲憊的人的飲料時,機器人在一堆物品中選擇了紅牛。

這樣的技巧來自在進行大型語言模型訓練時,研究員引入「思維鏈」(chain of thought)的能力。而這樣的多段語義推理在傳統的機器人模仿學習研究中時非常難以做到的。

不過,利用自然語言與機器人互動,並不是 RT-2 的創見。

在過去的機器人研究中,研究者始終需要將任務要求轉換為程式碼而讓機器人能夠理解,同時一旦出現問題,也需要編寫程式碼來糾正機器人的行為,整個過程需要多次互動,效率較低。而既然我們已經有了非常智慧的對話機器人了,下面比較自然的一步,自然是讓機器人與人類用自然語言互動

「我們大約兩年前開始研究這些語言模型,然後我們意識到它們蘊藏著豐富的知識。」Google研究科學家卡羅爾·豪斯曼 (Karol Hausman) 表示,「所以我們開始將它們連接到機器人。」

不過,讓大型語言模型作為機器人的頭腦,也有著自己的難題。其中最重要的一個問題之一,就是 grounding 問題,即如何使大型語言模型通常比較天馬行空的回應,轉化成驅動機器人行動的指令。

2022 年,Google推出 Say-can 模型。模型正如其名,採用兩重考量來幫助機器人行動。一重考量是 say,模型通過與Google的大型語言模型 PaLM 模型結合,可以通過自然語言和人類互動,把獲得的任務進行分解,找到最適合當前行動;另一重考量是 can,模型通過一個演算法,計算出當前機器人能夠成功執行這一任務的機率。機器人根據這兩重考量下,進行動作。

比如對機器人講「我的牛奶撒了,你能不能幫我?」機器人會首先通過語言模型進行任務規劃,這時可能最合理的方式是找到一個清潔工,其次是找一塊海綿自己擦。然後機器人會通過演算法計算出作為機器人,它能夠成功找到清潔工的機率很低,而找到海綿自己擦的機率很高。在兩重考慮後,機器人就會選擇尋找海綿擦牛奶的行動。

圖片來源:Saycan 介紹視訊

雖然在這樣雙層模型架構中,機器人能夠成功做出的動作已經是預先設計好的,大型語言模型只是能夠幫助機器人選擇合適的任務規劃。在這樣模型中,機器人已經展現出了極強的智慧感。

不過,雖然從外在看起來效果是類似的,RT-2 採取的是另一種道路。通過訓練時模型就同時學習視覺、語言、機器人行為這三種資料,RT-2 的模型並不是先進行任務分解,再進行任務操作,而是自然語言輸入後,通過模型的運算,直接產生動作的輸出。

「雙層結構類似於我想去做一件事情,腦袋里先想好第一步幹這個,第二步幹那個,然後再挨個執行這些策略。」許華哲教授表示,「而端到端的結構類似於我也沒有特別仔細想第一步、第二步是什麼,就把這個事情給幹了。」後者的一個例子可以類比於我們每天在手機上打字聊天,我們打字聊天時一般不會認真思考肌肉具體要如何去動作,而是想到了要打的字,就直接打出來了。

「兩種不同的路線或者不同的方法,都還沒有證明自己是唯一正確的方式。」許華哲表示。但由於 RT-2 的優秀表現,一個模型能夠接管輸入輸出的技術方向,似乎值得探索。

「由於這一變化(RT-2 的優秀表現),我們不得不重新考慮我們的整個研究規劃了,」Google DeepMind 機器人技術主管文森特·范霍克(Vincent Vanhoucke)表示。「之前所做的很多事情都完全變成無用功了。」

03 RT-2 是機器人的 GPT3 時刻嗎?

Google的 RT-2 機器人並不完美。在《紐約時報》記者目睹的實際展示中,它錯誤地識別了一罐檸檬味蘇打水的味道(說成「橘子口味」)。還有一次被問到桌子上有什麼水果時,機器人回答成「白色」(實際是香蕉)。Google發言人解釋說,該機器人使用了快取的答案來回答之前測試者的問題,因為它的 Wi-Fi 曾短暫中斷過。

除此之外,利用大型語言模型訓練機器人,不可避免地要面對成本問題。目前Google的機器人在進行推理和判斷的時候,需要將資料傳到雲端,由多塊 TPU 一起進行計算,再將結果發回機器人,由機器人執行操作。這樣的計算可想而知十分昂貴。

Google DeepMind 機器人技術主管文森特·范霍克(Vincent Vanhoucke)認為,新的研究開啟了機器人能夠在有人的環境中使用的大門——研究者認為,內建了語言模型的機器人可以進入倉庫、用於醫療行業,甚至成為家庭助理,幫助摺疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。

「如果你開一個工廠,需要使用機器人,成功率一定是要求很高的。你不會希望說買了機器人後,還需要很多人去維護這個機器人,完善機器人做的不夠好的事情。那這樣成本太高了。」許華哲教授表示,「家居場景下的機器人可能是另一個情形,因為也許家居場景下的一些任務的成功率要求沒有那麼高。比如疊衣服,疊的沒有那麼好,可能在你眼中這個任務失敗了,但對你的影響也不會非常大。」

人工智慧三巨頭之一的楊立昆(Yaan Lecun)有一個強調過許多次的著名論斷:『人工智慧還不夠聰明。任何一個孩子都能很快學會收拾桌子,把碗放進洗碗機,而機器人卻做不到。」

目前的機器人研究或許確實如此,但正如不完美的 GPT-3 讓業界看到了大型語言模型發展的方向一樣,或許今天不完美的 RT-2 也將開啟機器人進入家庭成為我們的助手的未來時代。

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則