猩猩學會玩《Minecraft》，科學家發現竟和訓練 GPT-4 智慧體的方法一致？ | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

2025科技趨勢金獎

猩猩學會玩《Minecraft》，科學家發現竟和訓練 GPT-4 智慧體的方法一致？

注意，這位玩家正在熟練地玩著《Minecraft》，他遊刃有餘地進行著收集零食和打碎積木的操作。

鏡頭一轉，我們才發現：玩家的真實身份，竟然是一隻猩猩！

沒錯，這是一項來自「猩猩行動計畫（Ape Initiative）」的非人類生物神經網路實驗。而實驗的主角 Kanzi，是一隻 42 歲的倭黑猩猩。

經過訓練後，它學會了各種技能，挑戰了鄉村、沙漠神殿、下界傳送門等環境，一路通關到達終點。

而 AI 專家發現，猩猩訓練師教會它學技能的過程，竟然跟人類教 AI 玩 Minecraft 有諸多類似之處，比如上下文強化學習、RLHF、模仿學習、課程學習等。

當猩猩學會玩《Minecraft》

Kanzi 是來自 Ape Initiative 的一隻倭黑猩猩，它是世界上最聰明的猩猩之一，聽得懂英語，還會使用觸控式螢幕。

在 Ape Initiative，Kanzi 能接觸到各種電子觸控式螢幕，這或許為它快速上手《Minecraft》打好了基礎。

人們第一次向 Kanzi 展示《Minecraft》時，它一坐到螢幕前就發現了綠色的箭頭，然後用手指劃向了這個目標物上。

學習三種技能

才不過幾秒鐘，Kanzi 就發現了該怎樣在《Minecraft》中移動。隨後，它還學會了收集獎勵。

每收集一個獎勵，它都會得到花生、葡萄、蘋果之類的零食獎勵。

Kanzi 的操作越來越嫻熟。它會分辨和目標箭頭同樣是綠色柱形的障礙物，在收集獎勵時繞開它們。

當然，Kanzi 也會遇到難關。它需要使用 break 工具擊碎大的積木塊，但這個操作，它此前從未見過。

眼看 Kanzi 卡住了，人類在旁邊開始幫忙，指著所需的工具按鈕。然而 Kanzi 看完後仍然沒能領悟。

人類只好親自上手，用工具敲碎了木塊。Kanzi 看完後若有所思，在所有人期待的目光中，它也有樣學樣，點選按鈕後擊碎了木塊。人們瞬間爆發出歡呼。

現在，Kanzi 的技能樹已經集齊了兩樣：收集零食、打碎積木。

在學習山洞技能的時候，工作人員發現，如果從試圖擊碎的木塊上滑落，Kanzi 就會直接走掉。因此，人們為它特別定製了一個任務 ——

在一個到處都是鑽石牆的山洞中擊碎木塊，來證明它掌握了收藏和擊碎的技能。

在山洞里一切都很順利，然而，Kanzi 卻遇到了一個問題：它在牆角被卡住了。此時，就需要人類伸出援手。

最終，Kanzi 到達了洞穴底部，擊碎了最後一道牆。

人群爆發出歡呼，Kanzi 也高興地和工作人員擊掌。

騙過人類

接下來，有意思的來了：工作人員邀請了一位人類玩家，和 Kanzi 一起玩遊戲，當然，他對於 Kanzi 的身份並不知情。

工作人員打算看一看，這位玩家會在多長時間後意識到，和自己一起玩遊戲的並不是人類。

開始，這位小哥只是覺得，對方的移動速度慢到不可思議，當 Kanzi 的畫面被展現到眼前，小哥直接被嚇到後仰。

走出迷宮

之後再玩《Minecraft》，Kanzi 越戰越勇。

每當 Kanzi 收集到一個獎勵，人們就會用歡呼的形式肯定它的行為，如果它失敗了，訓練員也會用鼓掌和歡呼鼓勵它繼續進行遊戲。

這時，它已經學會解鎖地下迷宮的地圖、擊碎面前的障礙物以及找到紫水晶。

當 Kanzi 卡住的時候，它會出去散散心，拿回一根木棍放到自己旁邊。就算不幸失敗，Kanzi 也會點選按鈕，讓自己重生。

最後一關，是一個充滿分岔路的巨大迷宮。

因為遲遲無法走出迷宮，Kanzi 焦躁起來，開始拿著樹枝尖叫，或者氣得把樹枝折斷。

最終，它讓自己平靜下來繼續闖關，走出了迷宮。立刻，掌聲和歡呼聲把 Kanzi 包圍了。

看來，《Minecraft》是被 Kanzi 這只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之處

看著一隻倭黑猩猩熟練地玩著電子遊戲，多少會有點讓人覺得有些荒誕和不可思議。

NVIDIA高級科學家 Jim Fan 對此評論：「儘管 Kanzi 和它的祖先們一生從未見過《Minecraft》，但它很快就適應了電子螢幕上顯示的紋理和物理特性。而這與它們一直以來接觸和生活的自然環境截然不同。」

這種泛化水平遠遠超出了現今為止最強大的視覺模型。而訓練動物玩《Minecraft》的技巧本質上與訓練人工智慧的原則是相同的：

- 基於上下文的強化學習：

每當 Kanzi 在遊戲中達到標記的里程碑時，他就會得到一個水果或花生，激勵他繼續遵循遊戲中的規則。

- RLHF：

Kanzi 並不理解人類的語言，但它能看到訓練人員為他加油打氣，還會偶爾給出回應。來自訓練人員的歡呼給了 Kanzi 一個強烈的訊號：它走在正確的道路上。

- 模仿學習：

訓練員為 Kanzi 展示了如何完成任務之後，它就立即掌握了相關操作的含義。展示的效果遠遠超出比單獨使用獎勵的策略。

- 課程學習（Curriculum learning）：

訓練員和 Kanzi 從非常簡單的環境開始，逐步教導 Kanzi 掌握控制技能。最後，Kanzi 能夠穿越複雜的洞穴、迷宮。

不僅如此，即便是使用了類似的訓練技巧，動物的視覺系統就能在極短的時間內識別和適應新的環境，而 AI 視覺模型則會花費更多的時間和訓練成本，甚至常常難以達到理想效果。

我們再次陷入莫拉維克悖論（Moravec's paradox）的深淵：

人工智慧與人類的能力表現相反。在我們認為無需思考或作為本能的低級智慧活動中（如感知和運動控制），人工智慧表現很糟糕。但在需要推理、抽象的高級智慧活動中（如邏輯推理和語言理解），人工智慧卻很容易超越人類。

這正好對應了這個實驗呈現的結果：

我們最好的人工智慧（GPT-4）在理解語言方面接近人類水平，但在感知、識別方面遠遠落後於動物。

Kanzi 和 LLMs 都可以玩《Minecraft》，但 Kanzi 的學習方式和 LLMs 之間存在著不可小覷的差異，我們要注意這一點。

面對 Kanzi 優異的學習能力，網友們開始了惡搞。

有人預見 6 年以後的世界將成為猩球大戰......

或者是猩猩喝可樂，融入人類社會......

「如果 Kanzi 有自己的遊戲頻道，我會老老實實看的。」

「在玩遊戲上，人類與倭黑猩猩沒有太大區別。我們都受到獎勵的激勵，以執行某些任務並完成目標，唯一的區別是獎勵的實際內容。」

「在《Minecraft》中，Kanzi 開採鑽石的獎勵更即時、更原始（食物），而我們開採鑽石的獎勵則更延遲且與遊戲相關。總之，有點瘋狂。」

先是 GPT 學會了玩《Minecraft》，現在倭黑猩猩也可以玩了，這讓人不禁開始期待能用上 Neuralink 的未來。

Jim Fan 教 AI 智慧體玩《Minecraft》

在教 AI 玩 Minecraft 上，人類早已積累了許多先進經驗。

早在今年 5 月，Jim Fan 團隊就曾把NVIDIA的 AI 智慧體接入 GPT-4，做出了一個全新的 AI 智慧體 Voyager。

Voyager 不僅性能完勝 AutoGPT，而且還可以在遊戲中進行全場景的終身學習！它可以自主寫程式碼獨霸《Minecraft》，完全無需人類插手。

可以說，Voyager 出現後，我們離通用人工智慧 AGI，又近了一步。

真・數位生命

接入 GPT-4 之後，Voyager 根本不用人類操心，完全就是自學成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能，還學會了自個進行開放式探索。

通過自我驅動，它不斷擴充著自己的物品和裝備，配備不同等級的盔甲，用盾牌格擋傷害，用柵欄圈養動物。

大型語言模型的出現，給建構具身智慧體帶來了全新的可能性。因為基於 LLM 的智慧體可以利用預訓練模型中蘊含的世界知識，生成一致的行動計畫或可執行策略。

Jim Fan：我們在 BabyAGI / AutoGPT 之前就有了這個想法，花了很多時間找出最好的無梯度架構

而在智慧體中引入 GPT-4，就開啟了一種全新的範式（靠程式碼執行「訓練」，而非靠梯度下降），讓智慧體擺脫了無法終身學習的缺陷。

OpenAI 科學家 Karpathy 也對此盛讚：這是個用於高級技能的「無梯度架構」。在這裡，LLM 就相當於是前額葉皮層，通過程式碼生成了較低級的 mineflayer API。

3 個關鍵元件

為了讓 Voyager 成為有效的終身學習智慧體，來自NVIDIA、加州理工學院等機構的團隊提出了 3 個關鍵元件：

1. 一個迭代提示機制，能結合遊戲反饋、執行錯誤和自我驗證來改處理程序序

2. 一個技能程式碼庫，用來儲存和檢索複雜行為

3. 一個自動教學，可以最大化智慧體的探索

首先，Voyager 會嘗試使用一個流行的 Minecraft JavaScript API（Mineflayer）來編寫一個實現特定目標的程式。

遊戲環境反饋和 JavaScript 執行錯誤（如果有的話）會幫助 GPT-4 改處理程序。

左：環境反饋。GPT-4 意識到在製作木棒之前還需要 2 塊木板。

右：執行錯誤。GPT-4 意識到它應該製作一把木斧，而不是一把「相思木」斧，因為 Minecraft 中並沒有「相思木」斧。

通過提供智慧體當前的狀態和任務，GPT-4 會告訴程式是否完成了任務。

此外，如果任務失敗了，GPT-4 還會提出批評，建議如何完成任務。

自我驗證

其次，Voyager 通過在向量資料庫中儲存成功的程式，逐步建立一個技能庫。每個程式可以通過其文件字串的嵌入來檢索。

複雜的技能是通過組合簡單的技能來合成的，這會使 Voyager 的能力隨著時間的推移迅速增長，並緩解災難性遺忘。

上：新增技能。每個技能都由其描述的嵌入索引，可以在將來的類似情況中檢索。

下：檢索技能。當面對自動課程提出的新任務時，會進行查詢並識別前 5 個相關技能。

第三，自動課程會根據智慧體當前的技能水平和世界狀態，提出合適的探索任務。

例如，如果它發現自己在沙漠而非森林中，就學習採集沙子和仙人掌，而不是鐵。課程是由 GPT-4 基於「發現儘可能多樣化的東西」這個目標生成的。

自動課程

作為第一個由 LLM 驅動、可以終身學習的具身智慧體，Voyager 的訓練過程和猩猩訓練過程的相似之處，可以給我們許多啟示。

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則