NVIDIA創辦人暨執行長黃仁勳於GTC21（GPU技術大會）開幕演說中發表了Grace處理器與多項軟、硬體產品，全面深化AI應用。

Omniverse帶來「虛擬化」應用

Omniverse可以說是本屆GTC大會開幕演說中最重要的元素，它是款能夠整合多種3D開發工具的平台，最主要的功能是作為3D設計團隊的跨軟體即時協作平台，能夠解決過往需要面對面開會、交換和反覆修改大量檔案的流程，讓規模龐大、遍布各地的3D製作團隊能夠流暢地合作，縮短開發者創造3D虛擬世界的流程。

Omniverse最早以Omniverse Machinima的型式隨GeForce RTX 30系列顯示卡發表，渡過開放測試階段後，終於將以企業版Omniverse Enterprise的名義正式推出，它不但是個便捷的3D開發工具，企業也能在其中進行數位孿生模擬、AI訓練等應用，舉例來說BMW車廠就透過數位孿生工廠模擬產能最佳化，計劃將能帶來30%效率提升。

另一方面，繼先前於GTC20發表的BlueField-2智慧型網路卡，NVIDIA這次推出功能更強大的BlueField-3，以及DOCA資料運算API，有助於提供兼顧效能與資安的加速、隔離網路解決方案。

更多關於Omniverse與BlueField、DOCA 1.0的內容將另以專文介紹。

更多GTC21新聞延伸閱讀：
NVIDIA Omniverse協作平台加速3D開發還能訓練AI，開發團隊也能輕鬆異地協作
NVIDIA推出BlueField-3 DPU與DOCA 1.0，強化伺服器資安與效能
 NVIDIA發表Tao與Fleet Command模型再訓練與部署套件，加速AI導入流程
 NVIDIA發表GANverse3D，只需1張照片就可產生霹靂車3D模型
 老黃刀法切出A10與A30等AI運算GPU，順勢端出MLPerf V1.0效能驗證成果

▲GTC21開幕演說中提到多種NVIDIA的AI應用範例，影片為透過AI朗誦的範例。完整演說重播請點我。

▲ GTC21開幕演說以直播影片的方式進行，影片仍於老黃自家拍攝。

▲ BMW於Omniverse Enterprise的數位孿生工廠中，透過模擬方式研究產能最佳化。

▲ BlueField-3與DOCA 1.0為資料中心提供完整的網路解決方案。

專為AI超級運算設計的Grace處理器

Grace是NVIDIA專為AI運算與高效能運算（HPC）所設計的Arm架構處理器，它以美國程式設計先驅葛麗絲•穆雷•霍普（Grace Murray Hopper）為名，並可協同繪圖處理器（GPU）與資料處理器（DPU）等運算單元共同運作。根據NVIDIA的官方說明，搭載Grace處理器與GPU的系統能帶來10倍於x86架構處理器NVIDIA DGX系統的效能。

Grace處理器的開發目標在於滿足自然語言處理、推薦模型、AI超級運算等需求，由於這些應用必須分析龐大的資料集，因此其最大的改進就是提升系統主記憶體與繪圖處理器（GPU）之間的頻寬。

以NVIDIA DGX運算平台為例，每個Ampere繪圖處理器具有頻寬為2TB/s的80 GB HBM2e記憶體，整合4個Ampere繪圖處理器就能組成頻寬達8 TB/s的320GB顯示記憶體，相較之下系統的主記憶體容量雖然大了3倍共有1TB，但與處理器之間的頻寬卻只有200GB/s，速度慢了40倍之譜，而透過PCIe介面連接處理器與繪圖處理器，頻寬也只有64GB/s。

然而目前的x86架構處理器皆不支援NVIDIA的NVLINK高速匯流排技術，且PCIe的頻寬也不夠使用，因此NVIDIA打造了專為自家AI運算平台最佳化設計的Arm架構處理器，並著重於提升系統主記憶體與繪圖處理器之間的頻寬。

Grace將繪圖處理器與主記憶體的頻寬提升至2TB/s，並透過第4代NVLink匯流排技術，能提供處理器與繪圖處理器之間高達900 GB/s的資料傳輸速度，與當今技術領先的伺服器相比，聚集頻寬增益達30倍。Grace也將採用LPDDR5x記憶體子系統，與目前的DDR4記憶體相比，能夠提供2倍的頻寬以及10倍的能源效率。此外全新的架構利用單一記憶體位址空間，提供統一的快取記憶體一致性，能夠整合系統主記憶體與繪圖處理器上的HBM高頻寬記憶體，簡化程式開發流程，讓使用者能將有效率地應用節點中總共1,320GB的記憶體總量，提升AI模型訓練的效能。

其成果是能讓單顆處理器提供300分以上的SPECint效能成績，在具有8組繪圖處理器的DGX系統上，將能帶來超過2,400分的SPECint總分。相較之下，身為目前世界上效能最高的電腦，當代DGX僅能跑出450分的成績，可見其效能成長相當顯著。

值得一提的是，瑞士國家超級計算中心（Swiss National Supercomputing Centre，CSCS）與美國能源局的洛斯阿拉莫斯國家實驗室（Los Alamos National Laboratory），都將採用由Hewlett Packard Enterprise（HPE）打造、採用Grace處理器的超級電腦，可見其應用潛力已經獲得頂尖研究機構的肯定。

▲ NVIDIA Grace是專為高效能運算設計的Arm架構處理器。

▲ 在由x86架構處理器的伺服器中，系統主記憶體與繪圖處理器之間的頻寬只有0.2TB/s。

▲ Grace處理器一改這個情況，將提繪圖處理器與主記憶體之間的頻寬提升至2TB/s，將可帶來顯著的AI效能成長。

▲ 瑞士國家超級計算中心將採用Grace處理器搭配GPU打造Alps超級電腦，預計於2023年上線服務。（圖為概念示意圖）

向Tick-Tock策略制敬？

Tick-Tock是Intel於2007年提出的處理器開發戰略模式，第1年將推出新架構、第2年將推出新製程，如此交錯重複進行。

黃仁勳於GTC21開幕演提到，目前NVIDIA資料中心的發展藍圖將由處理器、繪圖處理器、資料處理器（即CPU、GPU、DPU）等不同類型的運算單元構成，每種晶片都有2年的研磨改進周期，其中1年專注於x86平台，另1年專注於Arm平台，讓每年都有讓人振奮的產品於不同平台推出，以滿足不同差異化市場與客戶的需求。

另一方面，Grace處理器除了應用於資料中心與超級電腦之外，也將搭載於至預計於2025年推出的DRIVE Atlan車用SoC。DRIVE Atlan將採用Grace處理器，搭配NVIDIA次世代繪圖處理器，除了整合AI、軟體、網路、安全等功能，也能提供超過1,000TOPS的運算效能，大幅提升自動駕駛車的AI運算能力，並透過安全的無線更新升級（OTA），打造具有豐富可程式化能力的軟體定義車輛。

▲ NVIDIA資料中心的發展將有處理器、繪圖處理器、資料處理器等不同運算單元交互推出。

▲ 預計於2022年出廠的DRIVE Orin車用SoC將具有254TOPS運算效能，遠高於目前DRIVE Xavier的30TOPS。

▲ 預計於2025年推出的DRIVE Atlan將採用Grace處理器並提供超過1,000 TOPS的運算效能。

目前GTC21正在進行中，有興趣參與的讀者可以參考《GTC21 GPU技術大會將於4月12日登場，多位AI先驅帶來1,300場主題演說》一文，免費註冊並參加線上會議以及超過1,300場主題演說。