AI運算需要什麼？ Intel：廢話，當然是強悍的處理器

Intel先前推出了Xeon Scalable系列伺服器專用處理器，包含白金、黃金、銀、銅等不同等級產品，取代先前的E7、E5、E3命名方式，並能帶來高於前代產品1.73倍的綜合效能表現，在深度學習方面更有2.2倍的效能表現，相當適合用於人工智慧領域，Intel也說明了人工智慧的效能需求與一般運算有何不同。

AI在做什麼

最近AI（人工智慧）的發展有著爆炸性的成長，如影像辨識、語音辨識、自然語言處理等需求，都可以透過AI處理。而深度學習也是AI技術的其中一環，它是種執行機器學習的技術，能夠將大量數據輸入機器，並透過演算法分析數據，讓機器從中學習判斷或預測事物的能力。

以影像辨識為例，輸入的影像會經過許多稱為「層」的數學運算過程，每「層」運算都能讓系統分析影像的特徵，當第一「層」運算完成後，就會將分析結果傳到下一「層」，如此迭代運算直到最後一「層」。

在運算過成中，系統內的類神經網路（Neural Network）會透過正向傳播演算法（Forward Propagation）學習圖像的特徵與計算權重，並透過反向傳播演算法（Backward Propagation）比對輸入資料與演算誤差，修正錯誤。

在深度學習中，輸入的圖像通常是一組數量龐大的圖庫，並以平行處理方式同時進行大量運算，使用者可以在訓練過程中調校參數，提高訓練的準確度與速度。當訓練完成後，我們就能利用AI進行圖像分類，讓AI自動將圖像分類或是加上標籤（Tag）。這個動作稱為深度學習推論（Deep Learning Inference），是相當重要的效能指標。

▲ 深度學習領域中的類神經網路是種模仿生物大腦結構和功能的數學模型。

Xeon Scalable處理器衝著AI而來

在瞭解了深度學習的概念後，就可以開始看看Intel是如何強化Xeon Scalable處理器的效能，來提升深度學習的效率。

類神精網路運作時的摺積運算基本上就是矩陣相乘，因此能夠以每秒進行的單精度通用矩陣乘法（Single Precision General Matrix Multiply，SGEMM）或整數通用矩陣乘法（Integer General Matrix Multiply，IGEMM）運算次數，來評估處理器的效能表現。相較於Broadwell世代Xeon處理器，Xeon Platinum 8180能夠帶來2.3倍SGEMM效能，以及3.4倍INT8 IGEMM效能，有效提升深度學習效率。

此外Xeon Scalable也支援AVX-512指令集，能同時進行2組512 bit融合乘加（Fused-Multiply Add，FMA）運算，吞吐量是AVX、AVX2的2倍，根據Intel內部測試，在同一個處理器上開啟AVX-512，可以帶來1.65倍效能提升。

另一方面，由於深度學習仰賴龐大的資料，所以記憶體存取能力也是效能表現的重要關鍵。每顆Xeon Scalable都支援6通道DDR4記憶體，以及新的網狀架構（Mesh Architecture），在STREAM Triad效能測試中，記憶體頻寬高達211GB/s，此外大容量的快取記憶體也對效能有正面助益。

除了硬體方面，Intel也以開源形式提供了深度神經網路（Deep Neural Networks）運算用的函數庫，方便使用者利用Neon、TensorFlow、Caffe、theano、torch等軟體框架開發AI程式，透過軟體最佳化的方式進一步提升效能。

雖然我們這種一般使用者不會直接使用Xeon Scalable處理器，但仍可使用許多與AI相關的多雲端服務，因此還是能間接享受Xeon Scalable的強悍效能。

▲ Intel的Xeon Scalable系列伺服器專用處理器也走彩色戰隊風。（圖片來源：Intel，下同）