NVIDIA於GTC21發表超強Arm架構CPU處理器NVIDIA Grace,效能海放x86

NVIDIA於GTC21發表超強Arm架構CPU處理器NVIDIA Grace,效能海放x86

ADVERTISEMENT

NVIDIA創辦人暨執行長黃仁勳於GTC21(GPU技術大會)開幕演說中發表了Grace處理器與多項軟、硬體產品,全面深化AI應用。

Omniverse帶來「虛擬化」應用

Omniverse可以說是本屆GTC大會開幕演說中最重要的元素,它是款能夠整合多種3D開發工具的平台,最主要的功能是作為3D設計團隊的跨軟體即時協作平台,能夠解決過往需要面對面開會、交換和反覆修改大量檔案的流程,讓規模龐大、遍布各地的3D製作團隊能夠流暢地合作,縮短開發者創造3D虛擬世界的流程。

Omniverse最早以Omniverse Machinima的型式隨GeForce RTX 30系列顯示卡發表,渡過開放測試階段後,終於將以企業版Omniverse Enterprise的名義正式推出,它不但是個便捷的3D開發工具,企業也能在其中進行數位孿生模擬、AI訓練等應用,舉例來說BMW車廠就透過數位孿生工廠模擬產能最佳化,計劃將能帶來30%效率提升。

另一方面,繼先前於GTC20發表的BlueField-2智慧型網路卡,NVIDIA這次推出功能更強大的BlueField-3,以及DOCA資料運算API,有助於提供兼顧效能與資安的加速、隔離網路解決方案。

更多關於Omniverse與BlueField、DOCA 1.0的內容將另以專文介紹。

更多GTC21新聞延伸閱讀:
NVIDIA Omniverse協作平台加速3D開發還能訓練AI,開發團隊也能輕鬆異地協作
NVIDIA推出BlueField-3 DPU與DOCA 1.0,強化伺服器資安與效能
NVIDIA發表Tao與Fleet Command模型再訓練與部署套件,加速AI導入流程
NVIDIA發表GANverse3D,只需1張照片就可產生霹靂車3D模型
老黃刀法切出A10與A30等AI運算GPU,順勢端出MLPerf V1.0效能驗證成果

▲GTC21開幕演說中提到多種NVIDIA的AI應用範例,影片為透過AI朗誦的範例。完整演說重播請點我

GTC21開幕演說以直播影片的方式進行,影片仍於老黃自家拍攝。

BMW於Omniverse Enterprise的數位孿生工廠中,透過模擬方式研究產能最佳化。

BlueField-3與DOCA 1.0為資料中心提供完整的網路解決方案。

專為AI超級運算設計的Grace處理器

Grace是NVIDIA專為AI運算與高效能運算(HPC)所設計的Arm架構處理器,它以美國程式設計先驅葛麗絲•穆雷•霍普(Grace Murray Hopper)為名,並可協同繪圖處理器(GPU)與資料處理器(DPU)等運算單元共同運作。根據NVIDIA的官方說明,搭載Grace處理器與GPU的系統能帶來10倍於x86架構處理器NVIDIA DGX系統的效能。

Grace處理器的開發目標在於滿足自然語言處理、推薦模型、AI超級運算等需求,由於這些應用必須分析龐大的資料集,因此其最大的改進就是提升系統主記憶體與繪圖處理器(GPU)之間的頻寬。

以NVIDIA DGX運算平台為例,每個Ampere繪圖處理器具有頻寬為2TB/s的80 GB HBM2e記憶體,整合4個Ampere繪圖處理器就能組成頻寬達8 TB/s的320GB顯示記憶體,相較之下系統的主記憶體容量雖然大了3倍共有1TB,但與處理器之間的頻寬卻只有200GB/s,速度慢了40倍之譜,而透過PCIe介面連接處理器與繪圖處理器,頻寬也只有64GB/s。

然而目前的x86架構處理器皆不支援NVIDIA的NVLINK高速匯流排技術,且PCIe的頻寬也不夠使用,因此NVIDIA打造了專為自家AI運算平台最佳化設計的Arm架構處理器,並著重於提升系統主記憶體與繪圖處理器之間的頻寬。

Grace將繪圖處理器與主記憶體的頻寬提升至2TB/s,並透過第4代NVLink匯流排技術,能提供處理器與繪圖處理器之間高達900 GB/s的資料傳輸速度,與當今技術領先的伺服器相比,聚集頻寬增益達30倍。Grace也將採用LPDDR5x記憶體子系統,與目前的DDR4記憶體相比,能夠提供2倍的頻寬以及10倍的能源效率。此外全新的架構利用單一記憶體位址空間,提供統一的快取記憶體一致性,能夠整合系統主記憶體與繪圖處理器上的HBM高頻寬記憶體,簡化程式開發流程,讓使用者能將有效率地應用節點中總共1,320GB的記憶體總量,提升AI模型訓練的效能。

其成果是能讓單顆處理器提供300分以上的SPECint效能成績,在具有8組繪圖處理器的DGX系統上,將能帶來超過2,400分的SPECint總分。相較之下,身為目前世界上效能最高的電腦,當代DGX僅能跑出450分的成績,可見其效能成長相當顯著。

值得一提的是,瑞士國家超級計算中心(Swiss National Supercomputing Centre,CSCS)與美國能源局的洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory),都將採用由Hewlett Packard Enterprise(HPE)打造、採用Grace處理器的超級電腦,可見其應用潛力已經獲得頂尖研究機構的肯定。

NVIDIA Grace是專為高效能運算設計的Arm架構處理器。

在由x86架構處理器的伺服器中,系統主記憶體與繪圖處理器之間的頻寬只有0.2TB/s。

Grace處理器一改這個情況,將提繪圖處理器與主記憶體之間的頻寬提升至2TB/s,將可帶來顯著的AI效能成長。

瑞士國家超級計算中心將採用Grace處理器搭配GPU打造Alps超級電腦,預計於2023年上線服務。(圖為概念示意圖)

向Tick-Tock策略制敬?

Tick-Tock是Intel於2007年提出的處理器開發戰略模式,第1年將推出新架構、第2年將推出新製程,如此交錯重複進行。

黃仁勳於GTC21開幕演提到,目前NVIDIA資料中心的發展藍圖將由處理器、繪圖處理器、資料處理器(即CPU、GPU、DPU)等不同類型的運算單元構成,每種晶片都有2年的研磨改進周期,其中1年專注於x86平台,另1年專注於Arm平台,讓每年都有讓人振奮的產品於不同平台推出,以滿足不同差異化市場與客戶的需求。

另一方面,Grace處理器除了應用於資料中心與超級電腦之外,也將搭載於至預計於2025年推出的DRIVE Atlan車用SoC。DRIVE Atlan將採用Grace處理器,搭配NVIDIA次世代繪圖處理器,除了整合AI、軟體、網路、安全等功能,也能提供超過1,000TOPS的運算效能,大幅提升自動駕駛車的AI運算能力,並透過安全的無線更新升級(OTA),打造具有豐富可程式化能力的軟體定義車輛。

NVIDIA資料中心的發展將有處理器、繪圖處理器、資料處理器等不同運算單元交互推出。

預計於2022年出廠的DRIVE Orin車用SoC將具有254TOPS運算效能,遠高於目前DRIVE Xavier的30TOPS。

預計於2025年推出的DRIVE Atlan將採用Grace處理器並提供超過1,000 TOPS的運算效能。

目前GTC21正在進行中,有興趣參與的讀者可以參考《GTC21 GPU技術大會將於4月12日登場,多位AI先驅帶來1,300場主題演說》一文,免費註冊並參加線上會議以及超過1,300場主題演說。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則