你上傳的Instagram照片，正免費幫Facebook訓練AI模型？

要訓練機器學習辨識圖片中的物件，往往需要耗費人力、時間標註出名稱、類別，才能讓機器順利訓練，為打造出方便厲害的 AI 機器學習模型，Facebook 有一項超級秘密武器── 35億張的 Instagram 公開照片，以及無數的 Hashtag。

Instagram公開照片，成免費訓練模型素材

如果你習慣在發文時替照片加上幾個 Hashtag，那麼你有可能正在幫 Facebook 訓練機器學習模型。

過去要訓練機器學習辨識物件，必須耗費相當多的人力，舉例來說，如果希望電腦能理解「馬克杯」這個東西，人類必須先標記出這個東西是「馬克杯」，接著機器才能夠有依據學習，現在Facebook找到了一個用少量人力就能訓練機器學習的方法。

在第二天的開發者大會 F8上，首席技術長邁克·施羅普佛（Mike Schroepfer）表示，Facebook 研究人員與工程師，利用平台上35億張公開照片、超過17,000個 Hashtag 為基礎，透過上百個 GPU 解析資料，來訓練自家的圖片辨識模型，目前在 ImageNet（圖像數據庫）上已經可以達到85.4％的準確度。

但過程中也面對不少挑戰，邁克·施羅普佛（Mike Schroepfer）談到，許多用戶常常用錯標籤，像是用戶雖然在照片上標記「花枝」，但其實是「魷魚」。另外，Facebook 也必須訓練那些 Hashtag 是同義詞，並將具體描述的Hashtag，排序優於其他同類型 Hashtag，最終變成一套「大規模Hashtag預測模組」，來訓練圖像辨識模組。