ADVERTISEMENT
在虛擬實境、擴增實境、遊戲和人機互動等領域,經常需要讓虛擬人物和螢幕外的玩家互動。這種互動是即時的,要求虛擬人物根據操作者的動作進行動態調整。有些互動還涉及物體,像是和和虛擬人物一起搬動一把椅子,這就需要特別關注操作者手部的精確動作。智慧、可互動的虛擬人物的出現,將極大地提升人類玩家與虛擬人物的社交體驗,帶來全新的娛樂方式。
在該研究中,作者專注於人與虛擬人物的互動任務,特別是涉及物體的互動,提出了一項名為線上全身動作反應合成的新方案。該方案將基於人類的動作產生虛擬人物的反應。以往的研究主要關注人與人的互動,不考慮任務中的物體,產生的身體反應也沒有手部動作。此外,以往工作也沒有將任務視為線上的推理,在實際情況中虛擬人物根據實施情況對下一步進行預判。
為了支援新任務,作者首先構建了兩個資料集,分別命名為 HHI 和 CoChair,並提出了一個統一的方法。具體來說,作者首先構建了社交可供性(Affordance)表示。為了做到這一點,他們選擇了一個社交可供性載體,再使用 SE (3) 等變神經網路為該載體學習局部坐標系,最後將其社交可供性規範化。此外,作者還提出了一種社交可供性預測的方案,使虛擬人物能夠基於預測進行決策。
實驗證明,該研究中的方法可以在 HHI 和 CoChair 資料集上有效產生高品質的反應動作,並且能在一塊 A100 上實現 25 FPS 的即時推理速度。此外,作者還在現有的人類互動資料集 Interhuman 和 Chi3D 上驗證了方法的有效性。
資料集構建
本文中,作者構建了兩個資料集來支持線上全身動作反應合成任務,一個是雙人互動的資料集 HHI,另一個是雙人與物體互動的資料集 CoChair。
HHI 資料集是一個大規模的全身動作反應資料集,包含 30 個互動類別、10 對人體骨骼類型和總共 5000 個互動序列。
HHI 資料集有三個特點。第一個特點是包含多人全身互動,包括身體和手部互動。作者認為在多人互動中,手部的互動無法忽視,在握手、擁抱和交接過程中,都透過手部來傳遞豐富的資訊。第二個特點是 HHI 資料集可以區分明確的行為發起者和反應者。例如,在握手、指向方向、問候、交接等情況下,HHI 資料集可以確定動作的發起者,這有助於研究者更好地定義和評估這個問題。第三個特點是 HHI 資料集包含的互動和反應的類型更豐富多樣,不僅包括兩個人之間 30 種類型互動,還提供了針對同一行動者的多個合理反應。例如,當有人向你打招呼時,你可以點頭回應,用一隻手回應,或者雙手回應。這也是一種自然的特徵,但以前的資料集很少關注到這一點並進行討論。
CoChair 是一個大規模的多人和物體互動資料集,其中包括 8 個不同的椅子,5 種互動模式和 10 對不同的骨架,總共 3000 個序列。CoChair 有兩個重要的特點:其一,CoChair 在協作過程中存在資訊不對稱。每一個行動都有一個(知道攜帶物的目的地的)執行者 / 發起者和一個(不知道目的地的)反應者。其二,它具有多樣的攜帶模式。資料集包括五種攜帶模式:單手固定攜帶、單手移動攜帶、雙手固定攜帶、雙手移動攜帶和雙手靈活攜帶。
方法
社交可供性載體指編碼社交可供性資訊的物件或人。當人類與虛擬人物互動時,人類通常直接或間接地與虛擬人物接觸。而當涉及物體時,人類通常會接觸物體。
為了模擬互動中的直接或潛在接觸資訊,需要選擇一個載體來同時表徵人類、載體本身以及它們之間的關係。在該研究中,載體指人類可能接觸的物體或虛擬人物範本。
基於此,作者定義了以載體為中心的社交可供性表示。具體而言,給定一個載體,研究者對人類行為進行編碼,以獲得密集的人 - 載體聯合表示。基於這一表示,作者提出了一種社交可供性表示,其中包含人類行為的動作、載體的動態幾何特徵以及每個時間步驟中的人 - 載體關係。
需要注意的是,社交可供性表示指的是從開始時刻到特定時間步驟的資料流程,而不是單幀的表示。這種方法的優勢在於將載體的局部區域與人類的行為運動密切關聯,形成了便於網路學習的表示。
透過社交可供性表示,作者進一步採用社交可供性規範化來簡化表達空間。第一步是學習載體的局部框架。透過 SE (3) 等變網路,學習得到載體的局部坐標系。具體來說,首先將人類的動作轉化為每個局部坐標系的動作。接下來,作者從每個點的視角對人類角色的動作進行密集編碼,以獲得一個密集的以載體為中心的動作表示。這可以被視為將一個 「觀察者」 綁定到載體上的每個局部點上,每個 「觀察者」 都從第一人稱視角對人類的動作進行編碼。這種方法的優勢在於在對人類,虛擬人物以及物體之間的接觸產生的資訊進行建模的同時,社交可供性規範化簡化了社交可供性的分佈,並促進了網路學習。
為了預測和虛擬人物互動的人類的行為,作者提出了社交可供性預測模組。在真實情況下,虛擬人物只能觀察到人類行為的歷史動態。而作者認為虛擬物人應該具備預測人類行為的能力,以便更好地規劃自己的動作。例如,當有人抬手並向你走過來時,你可能會認為他們要與你握手,並做好迎接握手的準備。
在訓練階段,虛擬人物可以觀察到人類的所有動作。在真實世界的預測階段,虛擬人物只能觀察到人類行為的過去動態。而提出的預測模組可以預測人類將要採取的動作,以提高虛擬人物的感知能力。作者使用一個運動預測模組來預測人類行為者的動作和物體的動作。雙人互動中,作者使用了 HumanMAC 作為預測模組。在雙人與物體互動中,作者基於 InterDiff 構建了運動預測模組,並添加了一個先驗條件,即人 - 物接觸是穩定的,以簡化對物體運動的預測難度。
實驗
定量測試可以看出該研究的方法在所有度量指標上都優於現有方法。為了驗證方法中每個設計的有效性,作者在 HHI 資料集上進行了消融實驗。可以看出,沒有社交可供性規範化時,該方法的表現顯著下降。這表明使用社交可供性規範化來簡化特徵空間複雜性是必要的。沒有社交可供性預測,文中的方法失去了預測人類行為者動作的能力,導致了性能下降。為了驗證使用局部坐標系的必要性,作者還比較了使用全域坐標系的效果,可以看出局部坐標系顯著更好。這也表明使用局部坐標系描述局部幾何和潛在接觸是有價值的。
從視覺化結果可以看到,與以往相比,使用文中方法訓練過的虛擬人物的反應更快,並且能夠更好地捕捉到局部的手勢,在協作中產生更逼真和自然的抓取動作。
更多研究細節,可參考原論文。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!