首個由GPT-4驅動的人形機器人「Alter3」！無需程式設計+零樣本學習，還可根據口頭回饋調整行為

讓GPT-4操縱人形機器人，事先不做任何程式設計或訓練，會發生什麼事？

答案是：太神奇了！

你看，要求機器人表演「在昏暗電影院裡狂嗑爆米花，卻突然發現吃的是隔壁陌生人的」。

在GPT-4的操縱下，機器人笑容凝固，「尷尬」得搖頭扶額後仰：

但在尷尬之餘，還沒有忘記再抓一把塞進嘴裡。

再要求機器人「彈吉他」。

GPT-4略思考一番，開始操控機器人活動一番手指、隨後瘋狂甩頭，好像是有點搖滾味。但仔細一看，搖頭晃腦的時候，手指就完全不動了……

你要說這是算命先生在掐指算一算，好像也沒什麼違和感。

總結一系列動作來看——

相比波士頓動力人形機器人，一舉一動均由人為程式精細操縱，這個GPT-4直接操控的機器人，雖然表情不那麼讓人愉快，動作詭異，但一切行為又符合prompt的要求。

這一連串GPT-4操控機器人的影片po到網路上後，不少網友直呼「恐怖谷效應犯了」：

甚至20年資歷的機器人技術專家發表意見：

這些動作讓我毛骨悚然。你自己看看這有美感嗎？

還有網友調侃：「看起來就像舞臺上的我一樣。」

但也有網友認為，人形機器人能透過GPT-4來操縱，已經是很不可思議的事情了。

這是首個由GPT-4驅動人形機器人的研究，來自東京大學和日本Alternative Machine公司。

▲ From Text to Motion:Grounding GPT-4 in a Humanoid Robot "Alter3"

依靠這項研究，使用者無需事先給機器人程式設計，只需語言輸入、也就是動動嘴皮和GPT-4聊上一會兒，就能讓機器人根據指令完成行動。

一起來看看這項研究的更多細節和背後原理。

延伸閱讀：超逼真機器人！閉眼、聳肩、手臂搖晃、搖頭、皺眉表情手勢豐富流暢！

大模型+機器人的新嘗試

不用程式設計，也不訓練，用GPT-4當大腦，這個人形機器人Alter3，還能做出哪些令人皺眉卻又合理的動作？

不如給個指令，讓Alter3假裝自己是個吧！

它倒是也懂一秒入戲，張大嘴巴、雙手前伸。

但不知道為什麼，微張的雙唇和空洞的眼神，讓人感覺它更像的僵屍：

如果要求它自拍，Alter3倒也當場表現出來。就是不知道是被相機裡的自己醜到，他的表情並不享受，反而痛苦似的將自己眼睛閉了起來：

再來聽個搖滾。你說它頻頻點頭是在追隨節拍，一定沒錯；但你要說它是畢恭畢敬站在面前，說「啊對對對對對」，似乎也貼切極了：

在所有放出的示範影片中，「喝茶」這個行為最不奇葩怪異，甚至像是在演上班上到生無可戀的時候，喝茶就是這麼要死不活的。要咱說，送到嘴邊了才張口，這茶不喝也罷。

作為人形機器人，Alter3做出人類行為有點子搞笑，那……不如試試別的？

比如，演繹一條受到音樂感召後搖擺身姿的蛇：看到了嗎，沒那麼柔韌，但確實在盡它所能扭動軀幹。

這麼看下來，直接把人形機器人和GPT-4整合這件事，可以幹，但美觀性屬實不太夠啊……

其實回顧一下，讓大模型和機器人結合這事兒，科學家研究者們今年已經忙活了一整年。

不過，通常做法是做更多的訓練，然後嘗試將圖像語言大模型的能力和知識遷移到機器人領域。

包括微軟的ChatGPT for Robotics，Google的PaLm-E、RT-1、RT-2，還有VoxPoser、BoboCat等眾多工作，都走的是這個路線。

其中，轟動一時的GoogleRT（Robot Transformer）系列效果賊棒，但Google訓練它就花了17個月，並收集13台機器人的13萬條機器人專屬資料——一般團隊很難有這個資金和精力。

年中，李飛飛團隊的具身智慧成果，則百尺竿頭更進一步，通過將LLM（大語言模型）+VLM（視覺語言模型）結合在一起，機器人與環境進行互動的能力進一步提升。

這種思路下，機器人完成任務無需額外資料和訓練。

但是李飛飛團隊給出demo裡的硬體，本體還只是一個機械臂，今天我們介紹的研究中，實驗物件則是大模型界最強的GPT-4，以及作為「身體」的Alter3。

無論是OpenAI開發的GPT-4，還是東京大學和日本「機器人之父」石黑浩聯合開發的人形機器人Alter3，都是已有的研究成果。

這項研究的真正目的，是探索如何在不程式設計的情況下，用像GPT-4這樣的大模型控制人形機器人完成各種動作，以驗證GPT-4生成動作的能力、降低人機互動的複雜度。依靠這一系列成果，Alter3才能完成上面看到的各種各樣複雜動作（咱們先拋開完成度和觀賞性不提）。

還有一件事，那就是研究人員在整合Alter3和GPT-4時發現，即使給Alter3下同一個指令，Alter3回饋的動作也不會每次都一樣。經過一番分析後，他們認為，這與大語言模型本身的特點有關，即相同輸入可能對應不同的輸出，但並不代表GPT-4無法很好地控制人形機器人。

例如，要求機器人「吃飯」，它可能前後兩次就會分別做出拿筷子吃飯和拿刀叉吃飯的不同動作。

那麼，話又說回來，GPT-4究竟是如何一接收到語句輸入，就知道要如何控制Alter3的呢？

延伸閱讀：2023年，人工智慧和機器學習的進步將對機器人技術造成哪些改變？

關鍵靠2步提示詞

其實在接入GPT-4之前，Alter3就是具有腦子（AI神經網路）的，身上還帶著各種感測器。

此前，Alter3的行為主要靠其內建的一顆CPG（CentralPattern Generator，中樞模式發生器）來對感測器傳來的資料做出分析，然後按一定順序驅動體內的43個氣動裝置，完成相應動作。

整個過程中往往需要人為介入，做些修補程式，進而進行一些改進。但現在一切都不一樣了，研究團隊稱GPT-4的整合讓他們「解脫了」。

現在能實現用口頭指令來指揮Alter3，背後技術主要是這兩個：

CoT （思維鏈），以及zero-shot （零樣本學習）。

依託這兩項技術，對Alter3的控制不再完全依賴硬體本身，而是能夠用GPT-4直接將自然語言轉換成機器人可理解並執行的動作。

最最重要的是，整個流程無需對任何一個身體部位進行明確程式設計。

現在來具體說明把GPT-4和Alter3整合到一起，是如何實現的。

大致上可以分為兩個步驟：

首先，先用prompt描述一下，想要Alter3能夠完成什麼行為或者動作，比如「來張自拍吧」「自拍的時候手臂再舉高一點」。

接收到輸入的GPT-4會生成一系列的思考步驟，這些步驟詳細地闡述了要完成這個動作，需要先後完成些什麼。這個過程被研究團隊稱為CoT的一部分，即將一個複雜任務分解為一串更簡單的思考步驟。然後，研究者們再祭出另一個prompt，把分解後的詳細步驟轉化為Alter3可以聽懂的動作指令。

簡單理解就是把人們的指令描述轉化為Python程式碼，這些程式碼可以直接用來控制Alter3的各個身體部位的具體運動參數。有了轉化後的程式碼，Alter3想擠眉弄眼就擠眉弄眼，想撇嘴就能撇嘴。

研究團隊把這第二步也看成CoT的一部分，因為它完成的是「把一個抽象描述轉化為具體操作」。

團隊表示，CoT讓GPT-4能夠有效控制Alter3，命令它做各種複雜動作，且不用額外的訓練或者微調。而且，除了上述的兩個Prompt搞定機器人控制外，研究團隊還順手完成了一些其它研究。像是分開來看Alter3在對話中的行為，主要針對其對話軌跡和語義時間演化。

針對對話軌跡，研究團隊使用了一種叫UMAP（Uniform Manifold Approximation and Projection）的方法。團隊把對話內容嵌入2D空間，進而方便觀察這個簡化版的對話發展過程。

他們發現，當對話順序固定時，對話軌跡會呈現迴圈模式，也就是老在重複同樣的話題。而當對話順序隨機時，對話內容更有發散性or創造性。最有趣的一點是，研究發現GPT-4聊久了過後，會傾向於反復說「再見」。如果你不進行人為干預，它就會一直想辦法跟你說再見。

而做語義時間演化分析的過程中，團隊觀察了隨著時間變化，聊天內容的變化。他們發現，對話初期的一些關鍵字，比如「藝術」或者「學習」什麼的，會聊著聊著就被GPT-4忘了，取而代之的是諸如「文化」「人類」「抑制」之類的詞。這表明對話內容是在逐漸發展變化的。

當然，如果你開始跟GPT-4說「再見」，它就幾乎一心一意只想跟你說byebye～

延伸閱讀：日本東京大學開發的新型氣動類人型機器也能打排球了，擊球成功率80%！

來自東京大學

這項火爆全網的研究，來自東京大學和日本Alternative Machine公司。第一作者是Takahide Yoshida，來自東京大學通用系統科學系。

另外兩位作者升森敦士（Atsushi Masumori）和池上高志（Takashi Ikegami），都是既在東京大學，又屬於Alternative Machine公司。

▲ From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

最後，不得不提到本次研究內容的主角Alter3，它的幕後研究者也來自東京大學，由東京大學AI研究學者池上高志和日本「機器人之父」石黑浩連袂打造。

Alter3出生於2020年，是同系列機器人第三代產品。

據瞭解，Alter系列的兩次迭代都是在歌劇演唱中完成的。第3代的初亮相就是在東京新國立劇場指揮管弦樂隊並參加其他現場表演。

那個時候它的特色是增強了感測器，並改善了唱歌的表達能力和發聲系統，以及身體裡那顆能夠最終驅動43個氣動裝置的CPG。 CPG對資料的分析靈敏到什麼程度呢？就是如果Alter3處的房間裡如果溫度驟降，Alter3會因此打個冷顫，表示自己有被冷到。這或許也為現在接入GPT-4當腦子後的它，能夠活靈活現做表情、完成動作提供了一些基礎吧。