給AI一個洗衣機，它不會開門？史丹佛和FB研究了972種形狀，只為了教機器人開門

叫你打開一個滾筒洗衣機的門，你會怎麼做？

這是人類在日常生活中與周圍物體互動的簡單場景之一，對人類來說，拉開一個洗衣機門是自然而然的行為。

人類能毫不費力地理解對每個物體可以採取什麼舉動，能夠理解力的相互作用可能發生在哪裡，以及我們需要做一個什麼動作才能達到我們的目的。

給AI一個洗衣機呢？它會知道「拉」這個動作可以打開這個洗衣機的門嗎？

史丹佛和Facebook就專門成立了一個團隊研究這個問題，在他們最近的一篇論文中，他們提取了對物體中可活動的組件進行推拉等行為的相關訊息，並使用這些訊息來訓練一個人工智慧模型。

▲ 論文連結：https://arxiv.org/pdf/2101.02692.pdf他們開發的這個叫Where2Act的模型，透過對6種原始互動方法，涵蓋972種形狀，超過15種常見的室內物體類別進行了學習後，成功地學會了預測對新對象的可能有效的動作，甚至對沒有學習過的物體也能準確判斷。

每個像素都要學習

要讓AI學會和現實互動，首先要讓AI理解什麼是互動。

研究人員認為，與物體的長期互動就是短期「原子（點）」互動的序列，比如推和拉，就是在一個點上進行作用的序列。

這就簡化了AI的工作範圍，給定一個物體，AI可以先假設進行一個可能合理短期互動，這種互動可以被進一步分解為「在哪裡」互動和「如何」互動。

例如，AI要判斷拉動櫃子上的哪個把手，以及應該平行於把手拉動還是垂直於把手拉動等。

確定「在哪裡」互動就是要找到那個短期互動的「原子（點）」。

為此，研究人員開發了一個模型，當給定一個物體的深度或彩色圖像時，對於每個像素，模型都透過無數次的嘗試來學習，將達到效果的標記為成功。

「我們的方法允許AI透過與各種對象進行互動，並記錄其操作的結果來學習這些結果——將那些導致理想狀態變化的動作標記為成功，」研究人員表示。

透過學習，最後模型就可以對每個像素給出一個效果評分，以及動作建議和成功的可能性。

儘管AI要學習的都是人類常見的動作，但正是因為太常見、太普通，類似的視訊資料集很少。

為此，研究人員使用SAPIEN創建了一個模擬互動式環境，一個隨機3D關節對象被選擇並放置在場景的中心，而機器人手爪可以透過在指定位置和物體進行互動。

透過不斷的互動，進而讓機器人學習到什麼如何互動才能產產生功的效果。

研究人員還採用混合數據採樣策略，首先對大量離線隨機互動軌跡進行採樣以引導學習，然後基於網路預測自適應地對在線互動數據點進行採樣以提高學習效率。

最後，訓練好的AI終於學會了與現實世界互動，比如一個簡單的開門和關門，在AI的理解中，就是：

開門=在高曲率區域（如門的邊沿或者手把）施加一個拉力很有大的機率可以打開門

關門=在可推動的門的所有平面像素點施加一個拉力都可以關上門

就像讓AI辨識貓和狗一樣，往往人類覺得輕而易舉的事，AI反而覺得很難。

也正如圖像辨識一樣，AI也是依靠日益提升的運算能力透過對每個像素進行分析開始慢慢學會了和現實互動。

包括此前加州大學柏克萊分校的研究人員開發的高效機器人操作框架（FERM），也是透過「基於像素」的強化學習來讓機械手臂學會如何和現實世界互動。

研究人員表示，只透過10次示範，相當於15到50分鐘的實際訓練時間，一隻機械臂就可以學會接觸、挑選、移動和拉大型物體，或者翻轉開關。

儘管現在AI在和現實互動的理解方面還只能做到移動物體、開關門等簡單操作，但是這至少是AI向現實世界邁進的第一步。

未來是否能出現AGI，正是要看這些基礎的研究能慢慢做到什麼程度。

相關報導：

本文授權轉載自大數據文摘