「雞不可失」？日本團隊研究用深度學習辨識炸雞，每天在研究室現炸雞塊，炸累了就叫外賣

由RT Co.，Ltd .所開發的Foodly是一個人形機器人，可以拾取並具有圖像辨識的功能可以為便當配菜。該機器人大約只有一個小成年人的大小，可以和便當工廠輸送機上的工作人員並肩工作。

👉 加入T客邦telegram送《任天堂Switch大補丸》 ( https://bit.ly/35gy8ig )

在韓國最受歡迎的外賣食品是什麼？

答案毋庸置疑，一定是炸雞！

根據韓國外賣訂購軟體公佈的的統計數據顯示，炸雞今年再次當選韓國「最受歡迎的外賣食品」，從2014年起就一直霸占著冠軍寶座，簡直是小食界難以踰越的高峰。

無獨有偶，在美國，炸雞文化也長盛不衰，肯德基雙層炸雞堡唯一不限供應的地區就是美國。根據前德州監獄後廚Brian D.Price回憶，「70%的囚犯最後一餐都會要求吃油炸食品」。

那麼，炸雞和TensorFlow兩者結合，你又能想到什麼？

最近，日本一個機器人公司RT CORPORATION開發了一個叫Foodly的機器人，機器人上配置的圖像辨識系統用的就是TensorFlow，Foodly不僅能準確辨識單塊和多塊炸雞，還能將剛出鍋隨意擺放的炸雞塊整齊地放在便當盒內。

為了完成這個辨識功能，研究團隊也很拼，每天在實驗室現炸雞塊，炸累了點炸雞外賣，簡直就是變成了炸雞加盟店！

Foodly的開發也很好地貼合了疫情當下便當工廠不能大範圍復工的現狀，從下圖中可以看到，Foodly的大小和與成人類似，能在便當工廠的生產線上與人並排工作。

為了研發Foodly，他們活生生把公司搞成了炸雞加盟店

雖然好吃又誘人，但是炸雞塊在圖像辨識界可沒那麼讓人喜歡。

炸雞愛好者們都知道，你徒手拿起的每塊炸雞形狀是何其相似，更別說要在炸雞堆中準確區分每塊炸雞的邊界，這些都是圖像辨識研究者們內心拒絕炸雞的原因。

據聞，坊間流傳著這麼一個說法：炸雞塊是圖像辨識最難踰越的高峰。

但是現在有了Foodly，再難的炸雞辨識都是小菜一碟！辨識效果如下圖所示：

▲ 整堆炸雞塊被辨識成一個整體

▲ 每一塊炸雞塊被單獨辨識

據研究者透露，之前嘗試過其他的機器學習框架，但看到有人利用TensorFlow成功對貓的照片進行分類後，就按捺不住內心的躁動了。

光想不做可不行，緊接著，研究團隊對CNN的相關論文進行了閱讀和學習，並進行了進一步的物體檢測。

那時正好是第一代Foodly發佈初期，在對系統前期表現相當滿意的情況下，研究者們拿出究極武器——炸雞，可以看到，初代系統能夠將圖像的一部分切成矩形，然後以矩形為單位對炸雞塊進行辨識。

雖然初代系統的表現就已經很不錯了，但是研究團隊表示還存在很多不足，比如辨識時間太慢，辨識一塊炸雞要一分鐘左右，一分鐘炸雞骨頭都被吸乾了還辨識個什麼啊！再比如，初代系統還只能辨識單塊炸雞，成堆的炸雞辨識還有待進一步地改進。

同時，為了養活這麼一個系統，可真是難倒了研究團隊，那個時期他們每天在公司現炸雞塊，炸累了就叫外賣的炸雞，簡直就是把公司當成了炸雞加盟店！

當然這都不是最難的，最難的是要在吃掉之前先把圖像數據存儲下來。這麼下來，他們最終收集到了大概400~500張可以用的炸雞照片，700多張不那麼標準的照片。

在那些不標準的照片中，有一些還故意拍到了人手，這也是有研究考量的。因為人手和炸雞成色很像，形狀也像，如果系統錯誤地對人手進行辨識的話那可就大事不妙了。

Foodly進化史：從R-CNN起家，炸雞塊表面的凹凸紋路也不能放過

可以想見，開發Foodly可不是這麼簡單的事。

其實Foodly的前身還不叫Foodly，而是NEKONOTE，由一個扶手和安裝在頂部的照相機組成，雖然看上去像是工業用機器人的形狀，但是即使加上照相機用的框架，大小也能控制在一個人的樣子。

2016年6月，NEKONOTE在「TensorFlow學習會」上發表，在德國CEBIT 2017上公開亮相。出道舞台雖然足夠有份量，但還是出師不利，當場就有不少人對NEKONOTE提出質疑，有人認為NEKONOTE只使用一隻手，太可怕了，有人認為在食材正上方放置攝影鏡頭，可能會汙染食物，還有人針對NEKONOTE的照相機和手臂的位置關係，指出手臂的擺動可能會影響到視線和辨識效果。

▲ CEBIT 2017上展出的NEKONOTE

綜合了這些提議之後，研究者認為，或許應該把它設計成人型，於是NEKONOTE就搖身一變，變成了現在的Foodly。

當然這個過程可不只是外觀的變化，升級歸來的Foodly不僅能辨識單塊炸雞，還能從堆積的炸雞中檢測出每一塊炸雞。

辨識效果的提高也是多方面促成的，首先辨識標準從矩形辨識變成了輪廓辨識，這其中主要用到的就是從R-CNN發展而來的Mask R-CNN技術，其次，Foodly使用了可以辨識炸雞紋路的深度攝影機，炸雞塊表面的凹凸紋路也作為特徵被引入了深度學習，提高了辨識精度。

▲ 根據深度攝影機提供的影像學習凹凸特徵

幾代系統迭代發展下來，研究者總結了用TensorFlow進行炸雞辨識的心得，彙總成了下面這張從理論學習到推論的流程圖：

首先是製作監督數據集的階段。用位於Foodly頭部的深淺相機拍攝顏色和深淺的圖像(RGB-D圖像)，然後將其放入個人電腦進行標註，指定炸雞塊的位置。在標註上，團隊也製作了專門的工具使其盡可能的自動化。

在接下來的學習階段，以既有的公開訓練成果模型為基礎，通過TensorFlow進行轉移學習，製作食材檢測用的模型。轉移學習的引入也讓幾百張的圖像工作量銳減到了幾十張。

但是，既有的訓練成果的模型只能輸入RGB的3個通道，為了能夠對應RGB-D圖像，需要將輸入層變更為4個通道才能進行再學習。

最後，把做好的模型轉移到機器人上，就可以檢測出炸雞塊。在搭載壓縮GPU的邊緣的AI板Jetson TX2上執行推理過程。

順便一提，Foodly的目標是可以直接拿到便當工廠的生產線上使用。因此，根據工廠的不同，照明的程度也不同，增加了辨識的難度。常見的對策通常是準備專用的光源，不過，Foodly在訓練階段就適用了多樣的光度，因此即使沒有專用的光源也能能穩定的進行辨識。

以上就是關於辨識炸雞塊的整個流程，以實用的速度檢測炸雞塊，然後將其放入便當盒的操作現在已經很穩定了。公司現在也把目光對準了其他的食物，比如番茄，相比於炸雞，要讓機器人把番茄放入便當盒而不讓其碎掉，還必須調整機器人的力度，這就是另一個需要解決的問題了。

RT公司：機器人是未來社會的引路者

可別再說Foodly是日本人民的腦洞發明了。

Foodly可是瞄準了當下便當工廠人手不足的現狀，尤其是疫情之下，為了降低感染風險，Foodly可以代替人加入生產線，而且，表現不比人差。

考慮到大多數便當工廠的工作場所都是在60~90cm的空間內，目前工業機器人還有幾方面問題需要重點考慮：硬體上希望即使有人不可避免地碰撞到Foodly也不造成擦傷，軟體上，即使在沒有預設的情況下，也能正常辨識，除此之外，便當工廠流水線的菜單每小時會改變2~3次，便當盒尺寸存在差異，流動速度也有不同等等。

這些不確定因素在Foodly面前全都迎刃而解，而且，Foodly操作也十分簡單，不需要專家進行任何複雜的安裝和調整，馬上就能上工，可以說是工廠福音了。

那麼開發Foodly的公司到底是什麼來頭，結果發現，這家叫做RT CORPORATION的公司完全就是一個機器人迷公司嘛！

先不說公司的理念是「life with robot」，公司名字RT是Robot Technology的縮寫，公司的兔子logo來源參考了《愛麗絲夢遊仙境》，官網介紹道，在小說中，兔子是愛麗絲抵達仙境的引路人，與此相對應的，在現實中，機器人就是未來生活的引導者。

▲ Robot Technology