NPC和玩家的互動更自然了！你伸出手，它就準備和你握手，還會一起搬椅子

在虛擬實境、擴增實境、遊戲和人機互動等領域，經常需要讓虛擬人物和螢幕外的玩家互動。這種互動是即時的，要求虛擬人物根據操作者的動作進行動態調整。有些互動還涉及物體，像是和和虛擬人物一起搬動一把椅子，這就需要特別關注操作者手部的精確動作。智慧、可互動的虛擬人物的出現，將極大地提升人類玩家與虛擬人物的社交體驗，帶來全新的娛樂方式。

在該研究中，作者專注於人與虛擬人物的互動任務，特別是涉及物體的互動，提出了一項名為線上全身動作反應合成的新方案。該方案將基於人類的動作產生虛擬人物的反應。以往的研究主要關注人與人的互動，不考慮任務中的物體，產生的身體反應也沒有手部動作。此外，以往工作也沒有將任務視為線上的推理，在實際情況中虛擬人物根據實施情況對下一步進行預判。

為了支援新任務，作者首先構建了兩個資料集，分別命名為 HHI 和 CoChair，並提出了一個統一的方法。具體來說，作者首先構建了社交可供性（Affordance）表示。為了做到這一點，他們選擇了一個社交可供性載體，再使用 SE (3) 等變神經網路為該載體學習局部坐標系，最後將其社交可供性規範化。此外，作者還提出了一種社交可供性預測的方案，使虛擬人物能夠基於預測進行決策。

實驗證明，該研究中的方法可以在 HHI 和 CoChair 資料集上有效產生高品質的反應動作，並且能在一塊 A100 上實現 25 FPS 的即時推理速度。此外，作者還在現有的人類互動資料集 Interhuman 和 Chi3D 上驗證了方法的有效性。

論文地址：https://arxiv.org/pdf/2312.08983.pdf
專案主頁：https://yunzeliu.github.io/iHuman/

延伸閱讀：這個小遊戲裡只有25個電腦人，但是全都加裝了ChatGPT的「靈魂」

資料集構建

本文中，作者構建了兩個資料集來支持線上全身動作反應合成任務，一個是雙人互動的資料集 HHI，另一個是雙人與物體互動的資料集 CoChair。

HHI 資料集是一個大規模的全身動作反應資料集，包含 30 個互動類別、10 對人體骨骼類型和總共 5000 個互動序列。

HHI 資料集有三個特點。第一個特點是包含多人全身互動，包括身體和手部互動。作者認為在多人互動中，手部的互動無法忽視，在握手、擁抱和交接過程中，都透過手部來傳遞豐富的資訊。第二個特點是 HHI 資料集可以區分明確的行為發起者和反應者。例如，在握手、指向方向、問候、交接等情況下，HHI 資料集可以確定動作的發起者，這有助於研究者更好地定義和評估這個問題。第三個特點是 HHI 資料集包含的互動和反應的類型更豐富多樣，不僅包括兩個人之間 30 種類型互動，還提供了針對同一行動者的多個合理反應。例如，當有人向你打招呼時，你可以點頭回應，用一隻手回應，或者雙手回應。這也是一種自然的特徵，但以前的資料集很少關注到這一點並進行討論。

CoChair 是一個大規模的多人和物體互動資料集，其中包括 8 個不同的椅子，5 種互動模式和 10 對不同的骨架，總共 3000 個序列。CoChair 有兩個重要的特點：其一，CoChair 在協作過程中存在資訊不對稱。每一個行動都有一個（知道攜帶物的目的地的）執行者 / 發起者和一個（不知道目的地的）反應者。其二，它具有多樣的攜帶模式。資料集包括五種攜帶模式：單手固定攜帶、單手移動攜帶、雙手固定攜帶、雙手移動攜帶和雙手靈活攜帶。

延伸閱讀：隨著生成式人工智慧的發展，遊戲製作領域將迎來前所未有的變革

方法

社交可供性載體指編碼社交可供性資訊的物件或人。當人類與虛擬人物互動時，人類通常直接或間接地與虛擬人物接觸。而當涉及物體時，人類通常會接觸物體。

為了模擬互動中的直接或潛在接觸資訊，需要選擇一個載體來同時表徵人類、載體本身以及它們之間的關係。在該研究中，載體指人類可能接觸的物體或虛擬人物範本。

基於此，作者定義了以載體為中心的社交可供性表示。具體而言，給定一個載體，研究者對人類行為進行編碼，以獲得密集的人 - 載體聯合表示。基於這一表示，作者提出了一種社交可供性表示，其中包含人類行為的動作、載體的動態幾何特徵以及每個時間步驟中的人 - 載體關係。

需要注意的是，社交可供性表示指的是從開始時刻到特定時間步驟的資料流程，而不是單幀的表示。這種方法的優勢在於將載體的局部區域與人類的行為運動密切關聯，形成了便於網路學習的表示。

透過社交可供性表示，作者進一步採用社交可供性規範化來簡化表達空間。第一步是學習載體的局部框架。透過 SE (3) 等變網路，學習得到載體的局部坐標系。具體來說，首先將人類的動作轉化為每個局部坐標系的動作。接下來，作者從每個點的視角對人類角色的動作進行密集編碼，以獲得一個密集的以載體為中心的動作表示。這可以被視為將一個「觀察者」綁定到載體上的每個局部點上，每個「觀察者」都從第一人稱視角對人類的動作進行編碼。這種方法的優勢在於在對人類，虛擬人物以及物體之間的接觸產生的資訊進行建模的同時，社交可供性規範化簡化了社交可供性的分佈，並促進了網路學習。

為了預測和虛擬人物互動的人類的行為，作者提出了社交可供性預測模組。在真實情況下，虛擬人物只能觀察到人類行為的歷史動態。而作者認為虛擬物人應該具備預測人類行為的能力，以便更好地規劃自己的動作。例如，當有人抬手並向你走過來時，你可能會認為他們要與你握手，並做好迎接握手的準備。

在訓練階段，虛擬人物可以觀察到人類的所有動作。在真實世界的預測階段，虛擬人物只能觀察到人類行為的過去動態。而提出的預測模組可以預測人類將要採取的動作，以提高虛擬人物的感知能力。作者使用一個運動預測模組來預測人類行為者的動作和物體的動作。雙人互動中，作者使用了 HumanMAC 作為預測模組。在雙人與物體互動中，作者基於 InterDiff 構建了運動預測模組，並添加了一個先驗條件，即人 - 物接觸是穩定的，以簡化對物體運動的預測難度。

實驗

定量測試可以看出該研究的方法在所有度量指標上都優於現有方法。為了驗證方法中每個設計的有效性，作者在 HHI 資料集上進行了消融實驗。可以看出，沒有社交可供性規範化時，該方法的表現顯著下降。這表明使用社交可供性規範化來簡化特徵空間複雜性是必要的。沒有社交可供性預測，文中的方法失去了預測人類行為者動作的能力，導致了性能下降。為了驗證使用局部坐標系的必要性，作者還比較了使用全域坐標系的效果，可以看出局部坐標系顯著更好。這也表明使用局部坐標系描述局部幾何和潛在接觸是有價值的。

從視覺化結果可以看到，與以往相比，使用文中方法訓練過的虛擬人物的反應更快，並且能夠更好地捕捉到局部的手勢，在協作中產生更逼真和自然的抓取動作。

更多研究細節，可參考原論文。

延伸閱讀：這集的《南方四賤客》完全由AI自編、自導、自演！每個角色都是一個大模型