Google推出EfficientNet-EdgeTPU演算法，加快AI邊緣裝置效能

EfficientNet-EdgeTPU是針對Coral Dev Board、Tinker Edge T等搭載Edge TPU張量處理器進行最佳化的演算法，它能提升神經網路運算效能達10倍之譜，對於運算能量有限的邊緣裝置來說，是相當重要的突破，並能帶來更多應用的可能性。

透過AI彌補摩爾定律放緩

摩爾定律（Moore's law）由Intel創始人之一戈登•莫耳提出，他預測每隔2年積體電路上可容納的電晶體數目會增加1倍，在過去的數十年間，電腦的發展都相當契合這條定律。

而Google在官方AI研究部落格提到，在半導體製程越來越精進之後，要進一步縮小電晶體的尺寸比以往更加困難，因此資訊產業便逐漸將開發焦點轉移到硬體加速等特殊應用領域，以持續推進產業發展。

這個現象也發生在AI、機器學習領域，許多研發單位都在致力打造神經網路（Neural Network，NN）的加速運算單元，但是諷刺的是，即便應用於資料中心或邊緣裝置的神經運算裝置越來越普遍，但卻很少有為這些硬體最佳化的演算法。

為了解決這個問題，Google發表了EfficientNet-EdgeTPU影像分類演算模型，顧名思義可以猜到它以Google自家的開源EfficientNets模型為基礎，並針對Edge TPU進行最佳化，以利提升邊緣裝置在AI運算上的效能表現。

▲ 摩爾定律至今仍準確地描述半導體產業發展。（圖片來源：維基百科，本圖採用創用CC姓名標示-相同方式分享，作者為Wgsimon）

▲ Coral Dev Board藉由Edge TPU強化AI運算效能。

▲ Asus推出的Tinker Edge T開發板也搭載Edge TPU。

針對Edge TPU最佳化

為了要將EfficientNets最佳化，Google的研發團隊使用了AutoML MNAS框架，並針對Edge TPU的特性調整神經網路的搜尋空間（Search Space），同時也整合延遲預測模組，以利預估Edge TPU的運算延遲。

在執行運算的過程中，EfficientNets主要採用深度可分離卷積（Depthwise-Separable Convolutions），雖然可以降低運算量，但並不適合Edge TPU的架構，因此EfficientNet-EdgeTPU改採一般常規的卷積，雖然會讓運算量增加，但還是有較好的整體運算效能。

在實際驗證的測試中，EfficientNet-EdgeTPU-S代表基本模型，而-M和-L模型則代表先採用複合縮放將原始圖像調整為最佳解析度，再以更大、更準確的模型進行判讀，犧牲延遲換取更高的準確度。而在結果報告中，無論使用哪款模型，在效能與準確度都有出色的表現，效能大幅領先ResNet-50，準確度也遠高於MobileNet V2。

▲ EfficientNet-EdgeTPU採用最佳化的AutoML運算流程。（圖片來源：Google，下同）

▲ 常規的 3x3卷積（右）具有173M個乘積累加運算，而深度可分離卷積則只有24M個乘積累加運算，但是Edge TPU在常規卷積卻有約3倍的整體效能。

▲ EfficientNet-EdgeTPU-S/M/L模型具有高度效率與準確度，效能甚至比ResNet-50快10倍。

Edge TPU原本就是電力效率相當好的運算單元，在EfficientNet-EdgeTPU的加持下，甚至可以完成原本需要更高階電腦才能負荷的即時影像辨識、分類，讓邊緣運算有更多可能性。