Google AI 「看」了幾萬部電影，為的是有一天能看穿人類的行為

上週，AlphaGo「終極版」AlphaGo Zero 再次讓世人驚訝，自學 3 天完勝李世乭、40 天登頂「世界圍棋冠軍」。但這並不意味著人工智慧有能力取代人類，套用機器人界的一句話：「5 歲以上的人類能夠做的事情，機器人都能輕鬆勝任，但學會走路，辦不到。」

簡單來說，要 AI 辨識人類的行為動作至今仍是一個難題，而 4 個月大的嬰兒就能辨識各種臉部表情了。

Google 正在讓自家的 AI 克服這個難題，最近 Google 發佈了新的人類動作數據庫集體 AVA(atomic visual actions)，可以精準標註影片中的多人動作，而其學習的對象則是來自 YouTube 的大量影片。

據 Google Research Blog 介紹，AVA 的分析樣本主要是 YouTube 中的影視類影片。Google 先從這些影片中收集大量不同的長序列內容，並從每個影片中截取 15 分鐘，並將這些 15 分鐘片段再平均分成 300 個不重疊的 3 秒片段，同時在採樣時讓動作順序和時間順序保持一致。

▲3秒片段邊界框標註範例，範例中只顯示一個邊界框。

接下來則需要手動標記每個 3 秒片段中間幀邊界框中的每個人，從 80 個原子動作(atomic action)中選擇合適的標籤(包括行走、握手、擁抱等)給這些人物行為進行標註。

▲sit

▲watch

▲kiss

Google 把這些行為分成 3 組，分別是姿勢／移動動作、人物交互和人與人互動。目前 AVA 已經分析了 570,000 個影片片段，標記了 96,000 個人類動作，並生成了 21,000 個動作標籤。

在 AVA 的數據分析中，會對每個影片片段的每個人物動作進行辨識，也發現人類的的行為往往不是單一的。

統計至少帶有兩個動作標籤的人物數據，就可以分析人類不同動作一起出現的頻率，在 AVA 的文檔中稱之為共現模式(co-occurrence pattern) 。

從 AVA 的數據可以看到，打架和武術、親吻和擁抱、唱歌和彈奏樂器，這些都是比較常見的共現模式。

同時為了儘可能覆蓋更大範圍的人類行為，AVA 所分析的電影或劇集，採用了不同國家和類型的影片，這也可能是為了避免出現性別歧視和種族歧視。早在 2015 年，Google Photos 就曾因為誤把兩名黑人標註為「大猩猩」(Gorilla)而備受詬病。

Google 還將對外開放這一資料庫，最終目的是提高 AI 系統的「社交視覺智慧」，進而瞭解人類正在做什麼，甚至預測人類下一步要做什麼。

當然目前距離這個目標還很遙遠，正如 Google 軟體工程師 Chunhui Gu 和 David Ross 在介紹 AVA 的文章中寫道：

教會機器去辨識影片中的人類行為，是發展電腦視覺的一大基本難題，但這對於個人影片搜尋和發現、體育分析和手勢介面等應用至關重要。

儘管過去幾年在圖像分類和查找物體方面取得讓人激動的突破，但辨識人類行為仍然是一個巨大的挑戰。

雖然柯潔稱，「對於 AlphaGo 的自我進步來說人類太多餘了」，可是人腦有 800 億個神經元細胞、100 兆個連接，AI 神經網路要想達到大腦的認知水平也絕非易事。

目前電腦視覺技術的發展也主要集中在靜態圖像領域。

Google 從 2006 年開始用深度學習演算法代替人工辨識，Google Photos 現在已經可以辨識出貓狗的照片並自動分類。

▲從 a 到 b 分別是 Google Creatism 系統從街景圖到最終作品的全過程。

Google 的人工智慧實驗室 DeepMind 正在利用人工智慧將 Google 街景圖製作成專業的攝影作品，其水準甚至已經可以媲美專業攝影師。

而 iPhone X 上的 Face ID 技術，也許會讓臉部辨識技術在智慧手機上變得更為普及。就連全球最大的色情網站 Pornhub ，也宣佈將引入人工智慧技術對網站上成人影片的內容和表演者進行自主檢測，讓 AI 演算法為成人影片的內容和演員進行標籤分類。

相比而言，電腦對於人類動態行為的辨識則要困難得多。最近《The New Yorker》新一期封面在美國的社交媒體紅了起來，封面文章《黑暗工廠：歡迎來到未來機器人帝國》(Dark Factory)描述了越來越多人類的工作逐漸被機器人取代。

雖然機器人能做的事越來越多，但在該文中也可以看到機器人對很多看起來簡單的工作依然無能為力，比如打開一個盒子和解開一個結，美國布朗大學人機實驗室的 Winnie 機器人前不久才剛剛學會了摘花瓣。

而 Google 這次的人類動作數據庫集體 AVA，目前最直接的作用可能就是幫助旗下的 YouTube 處理和審核每天上傳的大量影片，同時也能更好地服務廣告主。

過去 Google 就曾因為無法對影片內容精準辨識而吃過大虧，《wired》雜誌的一篇文章曾披露， Google 在影片中植入廣告的自動系統，將一些廣告放置在了宣傳仇恨和恐怖主義的影片旁邊，已經讓沃爾瑪和百事可樂等大客戶放棄了 Google 的廣告平台。

對於 90% 收入來自廣告業務的 Google 來說，這個問題當然不能怠慢，之前 Google 主要透過聘請一大群臨時工去監測和標記各種影片內容，並以此做為 AI 的訓練數據。

這樣的做法除了需要高昂的人力成本，也有觀點認為這些臨時工不穩定的工作狀態和與 Google 的缺乏溝通，將會影響到 AI 辨識的精確度。

由此可見，如果 Google 這個 AI 的學習能力夠強，那不久的將來，這些臨時工也將統統失業，而將來這項技術的應用當然也不侷限於此。

隨著 AI 對人類認知越來越深，對於人工智慧倫理的討論也許會變得更加激烈。

●本文授權轉載自：ifanr