猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

注意,這位玩家正在熟練地玩著《Minecraft》,他遊刃有餘地進行著收集零食和打碎積木的操作。

鏡頭一轉,我們才發現:玩家的真實身份,竟然是一隻猩猩!

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

沒錯,這是一項來自「猩猩行動計畫(Ape Initiative)」的非人類生物神經網路實驗。而實驗的主角 Kanzi,是一隻 42 歲的倭黑猩猩。

經過訓練後,它學會了各種技能,挑戰了鄉村、沙漠神殿、下界傳送門等環境,一路通關到達終點。

而 AI 專家發現,猩猩訓練師教會它學技能的過程,竟然跟人類教 AI 玩 Minecraft 有諸多類似之處,比如上下文強化學習、RLHF、模仿學習、課程學習等。

當猩猩學會玩《Minecraft》

Kanzi 是來自 Ape Initiative 的一隻倭黑猩猩,它是世界上最聰明的猩猩之一,聽得懂英語,還會使用觸控式螢幕。

在 Ape Initiative,Kanzi 能接觸到各種電子觸控式螢幕,這或許為它快速上手《Minecraft》打好了基礎。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

人們第一次向 Kanzi 展示《Minecraft》時,它一坐到螢幕前就發現了綠色的箭頭,然後用手指劃向了這個目標物上。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

學習三種技能

才不過幾秒鐘,Kanzi 就發現了該怎樣在《Minecraft》中移動。隨後,它還學會了收集獎勵。

每收集一個獎勵,它都會得到花生、葡萄、蘋果之類的零食獎勵。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

Kanzi 的操作越來越嫻熟。它會分辨和目標箭頭同樣是綠色柱形的障礙物,在收集獎勵時繞開它們。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

當然,Kanzi 也會遇到難關。它需要使用 break 工具擊碎大的積木塊,但這個操作,它此前從未見過。

眼看 Kanzi 卡住了,人類在旁邊開始幫忙,指著所需的工具按鈕。然而 Kanzi 看完後仍然沒能領悟。

人類只好親自上手,用工具敲碎了木塊。Kanzi 看完後若有所思,在所有人期待的目光中,它也有樣學樣,點選按鈕後擊碎了木塊。人們瞬間爆發出歡呼。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

現在,Kanzi 的技能樹已經集齊了兩樣:收集零食、打碎積木。

在學習山洞技能的時候,工作人員發現,如果從試圖擊碎的木塊上滑落,Kanzi 就會直接走掉。因此,人們為它特別定製了一個任務 ——

在一個到處都是鑽石牆的山洞中擊碎木塊,來證明它掌握了收藏和擊碎的技能。

在山洞里一切都很順利,然而,Kanzi 卻遇到了一個問題:它在牆角被卡住了。此時,就需要人類伸出援手。

最終,Kanzi 到達了洞穴底部,擊碎了最後一道牆。

人群爆發出歡呼,Kanzi 也高興地和工作人員擊掌。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

騙過人類

接下來,有意思的來了:工作人員邀請了一位人類玩家,和 Kanzi 一起玩遊戲,當然,他對於 Kanzi 的身份並不知情。

工作人員打算看一看,這位玩家會在多長時間後意識到,和自己一起玩遊戲的並不是人類。

開始,這位小哥只是覺得,對方的移動速度慢到不可思議,當 Kanzi 的畫面被展現到眼前,小哥直接被嚇到後仰。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

走出迷宮

之後再玩《Minecraft》,Kanzi 越戰越勇。

每當 Kanzi 收集到一個獎勵,人們就會用歡呼的形式肯定它的行為,如果它失敗了,訓練員也會用鼓掌和歡呼鼓勵它繼續進行遊戲。

這時,它已經學會解鎖地下迷宮的地圖、擊碎面前的障礙物以及找到紫水晶。

當 Kanzi 卡住的時候,它會出去散散心,拿回一根木棍放到自己旁邊。就算不幸失敗,Kanzi 也會點選按鈕,讓自己重生。

最後一關,是一個充滿分岔路的巨大迷宮。

因為遲遲無法走出迷宮,Kanzi 焦躁起來,開始拿著樹枝尖叫,或者氣得把樹枝折斷。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

最終,它讓自己平靜下來繼續闖關,走出了迷宮。立刻,掌聲和歡呼聲把 Kanzi 包圍了。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

看來,《Minecraft》是被 Kanzi 這只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之處

看著一隻倭黑猩猩熟練地玩著電子遊戲,多少會有點讓人覺得有些荒誕和不可思議。

NVIDIA高級科學家 Jim Fan 對此評論:「儘管 Kanzi 和它的祖先們一生從未見過《Minecraft》,但它很快就適應了電子螢幕上顯示的紋理和物理特性。而這與它們一直以來接觸和生活的自然環境截然不同。」

這種泛化水平遠遠超出了現今為止最強大的視覺模型。而訓練動物玩《Minecraft》的技巧本質上與訓練人工智慧的原則是相同的:

- 基於上下文的強化學習:

每當 Kanzi 在遊戲中達到標記的里程碑時,他就會得到一個水果或花生,激勵他繼續遵循遊戲中的規則。

- RLHF:

Kanzi 並不理解人類的語言,但它能看到訓練人員為他加油打氣,還會偶爾給出回應。來自訓練人員的歡呼給了 Kanzi 一個強烈的訊號:它走在正確的道路上。

- 模仿學習:

訓練員為 Kanzi 展示了如何完成任務之後,它就立即掌握了相關操作的含義。展示的效果遠遠超出比單獨使用獎勵的策略。

- 課程學習(Curriculum learning):

訓練員和 Kanzi 從非常簡單的環境開始,逐步教導 Kanzi 掌握控制技能。最後,Kanzi 能夠穿越複雜的洞穴、迷宮。

不僅如此,即便是使用了類似的訓練技巧,動物的視覺系統就能在極短的時間內識別和適應新的環境,而 AI 視覺模型則會花費更多的時間和訓練成本,甚至常常難以達到理想效果。

我們再次陷入莫拉維克悖論(Moravec's paradox)的深淵:

人工智慧與人類的能力表現相反。在我們認為無需思考或作為本能的低級智慧活動中(如感知和運動控制),人工智慧表現很糟糕。但在需要推理、抽象的高級智慧活動中(如邏輯推理和語言理解),人工智慧卻很容易超越人類。

這正好對應了這個實驗呈現的結果:

我們最好的人工智慧(GPT-4)在理解語言方面接近人類水平,但在感知、識別方面遠遠落後於動物。

Kanzi 和 LLMs 都可以玩《Minecraft》,但 Kanzi 的學習方式和 LLMs 之間存在著不可小覷的差異,我們要注意這一點。

面對 Kanzi 優異的學習能力,網友們開始了惡搞。

有人預見 6 年以後的世界將成為猩球大戰......

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

或者是猩猩喝可樂,融入人類社會......

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

「如果 Kanzi 有自己的遊戲頻道,我會老老實實看的。」

「在玩遊戲上,人類與倭黑猩猩沒有太大區別。我們都受到獎勵的激勵,以執行某些任務並完成目標,唯一的區別是獎勵的實際內容。」

「在《Minecraft》中,Kanzi 開採鑽石的獎勵更即時、更原始(食物),而我們開採鑽石的獎勵則更延遲且與遊戲相關。總之,有點瘋狂。」

先是 GPT 學會了玩《Minecraft》,現在倭黑猩猩也可以玩了,這讓人不禁開始期待能用上 Neuralink 的未來。

Jim Fan 教 AI 智慧體玩《Minecraft》

在教 AI 玩 Minecraft 上,人類早已積累了許多先進經驗。

早在今年 5 月,Jim Fan 團隊就曾把NVIDIA的 AI 智慧體接入 GPT-4,做出了一個全新的 AI 智慧體 Voyager。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

Voyager 不僅性能完勝 AutoGPT,而且還可以在遊戲中進行全場景的終身學習!它可以自主寫程式碼獨霸《Minecraft》,完全無需人類插手。

可以說,Voyager 出現後,我們離通用人工智慧 AGI,又近了一步。

真・數位生命

接入 GPT-4 之後,Voyager 根本不用人類操心,完全就是自學成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學會了自個進行開放式探索。

通過自我驅動,它不斷擴充著自己的物品和裝備,配備不同等級的盔甲,用盾牌格擋傷害,用柵欄圈養動物。

大型語言模型的出現,給建構具身智慧體帶來了全新的可能性。因為基於 LLM 的智慧體可以利用預訓練模型中蘊含的世界知識,生成一致的行動計畫或可執行策略。

Jim Fan:我們在 BabyAGI / AutoGPT 之前就有了這個想法,花了很多時間找出最好的無梯度架構

而在智慧體中引入 GPT-4,就開啟了一種全新的範式(靠程式碼執行「訓練」,而非靠梯度下降),讓智慧體擺脫了無法終身學習的缺陷。

OpenAI 科學家 Karpathy 也對此盛讚:這是個用於高級技能的「無梯度架構」。在這裡,LLM 就相當於是前額葉皮層,通過程式碼生成了較低級的 mineflayer API。

3 個關鍵元件

為了讓 Voyager 成為有效的終身學習智慧體,來自NVIDIA、加州理工學院等機構的團隊提出了 3 個關鍵元件:

1. 一個迭代提示機制,能結合遊戲反饋、執行錯誤和自我驗證來改處理程序序

2. 一個技能程式碼庫,用來儲存和檢索複雜行為

3. 一個自動教學,可以最大化智慧體的探索

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

首先,Voyager 會嘗試使用一個流行的 Minecraft JavaScript API(Mineflayer)來編寫一個實現特定目標的程式。

遊戲環境反饋和 JavaScript 執行錯誤(如果有的話)會幫助 GPT-4 改處理程序。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

左:環境反饋。GPT-4 意識到在製作木棒之前還需要 2 塊木板。

右:執行錯誤。GPT-4 意識到它應該製作一把木斧,而不是一把「相思木」斧,因為 Minecraft 中並沒有「相思木」斧。

通過提供智慧體當前的狀態和任務,GPT-4 會告訴程式是否完成了任務。

此外,如果任務失敗了,GPT-4 還會提出批評,建議如何完成任務。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

自我驗證

其次,Voyager 通過在向量資料庫中儲存成功的程式,逐步建立一個技能庫。每個程式可以通過其文件字串的嵌入來檢索。

複雜的技能是通過組合簡單的技能來合成的,這會使 Voyager 的能力隨著時間的推移迅速增長,並緩解災難性遺忘。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

上:新增技能。每個技能都由其描述的嵌入索引,可以在將來的類似情況中檢索。

下:檢索技能。當面對自動課程提出的新任務時,會進行查詢並識別前 5 個相關技能。

第三,自動課程會根據智慧體當前的技能水平和世界狀態,提出合適的探索任務。

例如,如果它發現自己在沙漠而非森林中,就學習採集沙子和仙人掌,而不是鐵。課程是由 GPT-4 基於「發現儘可能多樣化的東西」這個目標生成的。

猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?

自動課程

作為第一個由 LLM 驅動、可以終身學習的具身智慧體,Voyager 的訓練過程和猩猩訓練過程的相似之處,可以給我們許多啟示。

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則