NVIDIA推動系統認證，最佳化AI應用作業負載

NVIDIA與多間合作廠商共同推出最新搭載Mellanox網路技術的GPU，加速處理AI作業，進而提升機器學習的應用成果。

強化企業AI應用

先前NVIDIA曾於SC20（2020年超級電腦大會）發表了多款搭載A100 Tensor核心繪圖處理器（以下以GPU簡稱）的產品，為以GPU為基礎的超級電腦帶來更強大的運算效能。詳細資訊可參考《NVIDIA於SC20超級電腦大會發表多款產品，GPU搭載80GB海量記憶體》一文。

在AI浪潮之下，有許多企業紛紛導入AI，舉例來說美國運通（American Express）使用最新的AI模型進行即時詐欺偵測，福特（Ford）利用生成對抗網路來產生測試自動駕駛車所需的資料，達美樂（Dominos）利用AI技術改善每年30億個披薩外送訂單準備時間的預測。

這些AI運算形式誕生於網路，並逐漸擴展至零售、物流、金融及醫療保健等各行各業。根據高德納顧問公司（Gartner）估計，現有37%的組織在生產過程中使用AI技術，預估至2024年比例將翻倍達到75%。

然而AI運算的瓶頸之一，就是每間公司都想在不斷增長的海量資料裡，找出具策略價值的洞察。舉例來說，沃爾瑪超市（Walmart）每個小時需要處理超過2.5PB的資料量，對伺服器來說是個嚴峻的考驗，而在近5年內，用於篩選海量資料的AI模型數量成長了近3萬倍，模型多樣性和作業負載也不斷增加，讓企業需要安全、可靠、高速，並且可以有效擴大規模的基礎設施，以及更靈活性的GPU。

▲ NVIDIA A100為專為AI運算設計的GPU。

▲ 除了傳統的高效能運算之外，企業對AI運算的需要也日益攀升。

▲ 企業除了需要效能更高的運算平台之外，對安全性、資料傳輸速度也多有要求。

▲ 另一方面可以擴大規模的擴充彈性也十分重要。

認證系統確保運作最佳化

NVIDIA認證系統目前仍採用x86架構處理器，結合Ampere架構GPU的運算能力，以及安全的Mellanox高速網路解決方案，並會在測試過程中執行單一GPU以及多個運算節點的作業負載，並確保能夠執行NGC目錄（針對GPU最佳化的應用程式）中的AI應用程式，可提供企業AI運算所需的效能、可程式化特性及安全處理能力。

NVIDIA認證系統必須通過測試簡表
深度學習訓練與推論
機器學習演算法
智慧影像分析
網路與儲存裝置

卸載測試內容著重於實際使用情境，並會從NGC目錄挑選熱門的AI框架和容器，能夠確保通過認證的系統與強大的AI電腦具有相同的軟硬體環境。

NVIDIA也協同多間合作夥伴推出搭載A100 GPU的認證系統，首批產品包含：

Dell EMC PowerEdge R7525、R740機架式伺服器
GIGABYTE R281-G30、R282-Z96、G242-Z11、G482-Z54、G492-Z51系統
HPE Apollo 6500 Gen10系統、HPE ProLiant DL380 Gen10伺服器
Inspur NF5488A5
Supermicro A+系統、AS-4124GS-TNR、AS-2124GQ-NART

這些系統也搭載Mellanox纜線、交換器，並可選擇搭配ConnectX-6 InfiniBand、乙太網路、BlueField-2 DPU等網路卡，除了具有高度使用彈性外，也有低延遲、高吞吐量等特色。

▲ NVIDIA認證系統為業界唯一針對現代運算作業負載進行測試的伺服器。

▲ NVIDIA與多間合作夥伴共同推出認證系統。

▲ 截至目前已有6間廠商共計14套系統取得認證，而至少有11間廠商的近70套系統參與這項計畫。

NVIDIA表示所有認證系統均能獲得開源資源與完整軟體堆疊等企業級支援服務，以確保導入認證系統的企業都能快速享受到AI帶來的優勢。更多詳細資料可以參考NVIDIA Certified網站。