AMD、Intel這些競爭對手紛紛擁抱大小核，NVIDIA這次落後了嗎？

雖然摩爾定律已經逐漸走到盡頭，但我們卻來到了一個更加看點十足的時代，不同於以往每隔18個月靠技術換代帶來的常規演變，以Intel、NVIDIA和AMD為首的晶片巨頭之間的競爭變得異常激烈。從Intel、NVIDIA、AMD三家的產品布局來看，三家幾乎都集齊了CPU、GPU甚至是DPU產品線。如今，他們正在醞釀更大的規劃！

隨著近日AMD推出CPU和GPU組合的下一代資料中心APU——Instinct MI300，自此，三家的「多PU組合」爭鬥戰已經開打。

在此之前，Intel的Falcon Shores XPU混合搭配CPU + GPU，NVIDIA的Grace Hopper Superchip是Grace CPU + H100 GPU的組合，都是如出一轍。

他們都在做一件偉大的事情：在一個晶片中內建CPU、GPU和AI加速器，最終成為一個類似APU的產品，目標是更廣闊的超級運算市場。

但是在實現方式上，NVIDIA落後了？

Intel的XPU計畫之一：Falcon Shores

首先來說下Intel的XPU計畫？XPU是指使用多種運算架構以最好地滿足單個工作負載的執行需求的想法，這是Intel過去幾年來最感興趣的一個方向。

Intel希望將X86和Xe結合起來用於超級運算/HPC市場。這也導致了Intel開始研發從CPU、GPU個一些ASIC產品（如IPU、VPU、FPGA）等等各種產品。

在Intel2022年年度投資者會議上，Intel披露了一個代號為Falcon Shores的處理器新架構，它將x86 CPU和Xe GPU硬體組合到單個Xeon插槽晶片中，利用下一代封裝、記憶體和 I/O 技術，為運算大型資料集和訓練巨大 AI 模型的系統提供巨大的性能和效率改進。

不過Intel的目標似乎不僅僅是將CPU和GPU內建在一起，Intel正在尋求為擁有絕對巨量資料集HPC使用者開闢市場——這種資料集無法輕鬆適應獨立GPU相對有限的記憶體容量。

Falcon Shores的目標是在2024年推出，採用埃米級製程，這意味著它可能會使用Intel 20A或Intel 18A製造工藝製造。

Intel預計Falcon Shores在多個指標上比當前一代產品增長5倍，包括每瓦性能提高5倍，單個 (Xeon) 插槽的運算密度提高5倍，記憶體容量增加5倍，記憶體頻寬增加5倍。

Intel表示，Falcon Shores的混合設計是透過使用tile（也稱為小晶片）實現的，透過提供x86和Xe核心之間的靈活比例，這將使晶片製造商在設計過程的後期組態晶片方面具有更大的靈活性。

AMD發布Instinct MI300 APU

近日，AMD在CES 2023上披露了其下一代資料中心處理器Instinct MI300，被AMD稱之為下一代資料中心APU。它採用了13個Chiplet，共有1460億個電晶體，MI300可以說是AMD迄今為止最大的晶片。

該晶片的運算部分由九個5nm小晶片組成，它們包含CPU或GPU核心，但AMD沒有詳細說明每個小晶片的使用數量。

這九個裸片被3D堆疊在四個6nm基礎裸片之上，而且這些裸片是有源的中介層，可以處理 I/O和各種其他功能。從下圖中可以清晰的看到，Instinct MI300中心晶片側面的八個HBM3堆疊。

圖源：Future

MI300的關鍵優勢除了將CPU核心和GPU核心放在同一設計中的操作簡單性之外，還在於它可以讓兩種處理器類型共享一個高速、低延遲的統一記憶體空間。

這將使在CPU和GPU兩個核之間快速且輕鬆的傳遞資料，能讓每個核處理他們最擅長的運算方面。此外，它還可以透過讓兩種處理器類型直接存取同一記憶體池，簡化插槽等級的HPC程式。

但是MI300晶片並不是批次產品，因為其價格昂貴且相對稀缺，所以它們不會像EPYC Genoa資料中心CPU那樣得到廣泛部署。AMD預計將在2023年下半年交付Instinct MI300。

但是，這一Chiplet的設計技術將會衍生出更多的變體。

NVIDIA Grace Hopper Superchip

不同於Intel和NVIDIA採用Chiplet架構的做法，NVIDIA首款GPU+CPU組合——Grace Hopper Superchip還是單晶片的方式，下圖是算繪圖。

Nvidia對其Grace Superchip的算繪圖：兩個帶有RAM的處理器合二為一

NVIDIA?Grace Hopper架構將NVIDIA Hopper GPU與NVIDIA Grace? CPU結合在一起，在單個超級晶片中連接高頻寬和記憶體一致的NVIDIA NVLink Chip-2-Chip(C2C)?互連，並支援新的NVIDIA NVLink開關系統。

NVLink C2C是NVIDIA為超級晶片開發的記憶體相干、高頻寬和低延遲互連。它是Grace Hopper超級晶片的核心，提供高達900 GB/s的總頻寬。這比加速系統中常用的x16 PCIe Gen5通道的頻寬高7倍。

結合NVIDIA NVLink切換系統，所有運行在最多256個NVLink連接的GPU上的GPU執行緒現在都可以以高頻寬存取高達150TB的記憶體。

NVIDIA Grace Hopper超級晶片邏輯一覽（圖源：NVIDIA）

NVIDIA表示，該超級晶片將為運行TB級資料的應用程式提供高達10倍的性能提升，NVIDIA已承諾在2023年上半年推出其超級晶片。

可以看出，Intel、NVIDIA和AMD都開始在CPU+GPU組合上發力，他們改採用的方式：要麼晶片繼續平鋪做大，要麼拼3D堆疊、Chiplet、拼架構。

目前從各家的CPU+GPU組合型產品推出的時間上來看，AMD和NVIDIA都在2023年，而Intel將在2024年。軟體支援方面，Intel有oneAPI，NVIDIA有CUDA，AMD似乎還稍遜一些。

而在架構方面，Intel、AMD均已奔向3D Chiplet，但NVIDIA似乎仍在單晶片上努力。

NVIDIA何時擁抱Chiplet？

Chiplet用於CPU已經不是新聞了，AMD多年來一直在其Ryzen和Epic等CPU處理器中使用Chiplet設計並取得了巨大成功。

Intel也於2023年1月11日正式發布了基於Chiplet設計的第四代至強CPU-Sapphire Rapids，它透過內建加速器將目標工作負載的平均每瓦性能提升了2.9倍，在最佳化電源模式下每個CPU節能可高達70瓦，將總體成本降低52%-66%。

但是就目前的情況來看，GPU也已邁入了Chiplet時代。

如今Intel和AMD已經均已發布了3D Chiplet CPU和GPU中的產品。

而NVIDIA無論是GPU還是CPU似乎還在單晶片上努力，NVIDIA要落後了嗎？

2023年1月11日，Intel發布了其首款Chiplet小晶片封裝的GPU，代號Ponte Vecchio，GPU Max系列單個產品整合47個小晶片，內建超過1000億個電晶體。

這是Intel性能最高、密度最高的通用獨立GPU。Intel的這一晶片的具體性能對比情況暫未可知，但是我們暫且可以看看AMD與NVIDIA的GPU性能對比。

AMD最新一代的GPU Navi 31，是AMD第一款、也可以說是歷史上第一個基於Chiplet設計的GPU，AMD的兩款最新顯示卡Radeon RX 7900 XTX和Radeon RX 7900 XT均是基於Navi 31。

其中，XTX是旗艦機型，擁有更多的shader處理器，更高的記憶體頻寬，更多的視訊記憶體，而XT則是有些弱化的版本。

如果我們將AMD的顯示卡和NVIDIA的RTX 4080作對比，AMD的GPU的性能非常接近NVIDIA的RTX 4080。

據chipsandcheese的評測對比資料，如下圖所示，NVIDIA的4080採用4nm製程，電晶體密度比AMD的低一些，面積也更大一些，但NVIDIA4080具有更高的SM數量，這意味著暫存器檔案和FMA單元相比AMD要有更多的邏輯控制。

NVIDIA還具有更簡單的快取層次結構的優勢，它仍然提供相當大的快取容量。

AMD 7900/6900與NVIDIA4080的比較（圖源：chipsandcheese）

NVIDIA的GPU目前做法還是將所有的電晶體，都放在一個更大的單晶片上，採用尖端製程4奈米節點。

而AMD的Navi 31基於Chiplet設計和先進的RDNA3架構。其裸片由GCD核（圖形運算晶片）和 MCD記憶體小晶片（記憶體快取晶片）組成。

從下圖可以清晰的看到，中間部分是5nm製程的GCD核，周圍分別是6顆6nm製程的MCD，包含記憶體控製器和Infinity快取。

AMD Navi 31裸片（圖源：AMD）

兩種不同工藝的晶片組裝在一起，所使用的尺寸更小，與此同時，Chiplet的設計方式使得晶圓的缺陷晶片數量也少的多，從這個意義上來說，Chiplet架構的使用降低了成本。

Chiplet的設計還助於透過在圖形晶片上使用更少的區域來實現VRAM連接，進而做到更高頻寬的 VRAM 設定。但是也不是萬利的，代價就是AMD必須支付更昂貴的封裝解決方案，因為簡單的封裝走線在處理GPU的高頻寬要求方面表現不佳。

此外，AMD Navi 31 GPU很重要的一項創新是Infinity Link匯流排，為何要說到這個呢？

因為Chiplet的設計方式絕對定會產生更多的延遲，而GPU是對延遲極其敏感的，所以AMD特意為此開發了全新的Infinity Link匯流排（即 Infinity Fanout Links 系統）來連接GDC和MCD部件，進而在GCD和MCD小晶片部件之間實現5.3 TB/s的頻寬，這種超級先進的互連系統無疑是小晶片GPU設計的關鍵決定因素。

可以說，AMD的Navi 31為圖形處理器世界帶來了真正革命性的小晶片GPU設計，如果這一設計取得成功，那麼未來GPU就可以不用依賴先進工藝來提升性能，而是透過堆疊更多的GCD來實現。GPU市場迎來新的戰爭。

3D IC設計逐漸成為了主流，Chiples也進一步崛起，在晶片大廠的推動下，基於Chiplet的3D IC設計進一步展示了其說服力。Chiplet將徹底改變這個行業。

NVIDIA何時採用Chiplet，備受業界關注，不過應該也快了，畢竟黃仁勳已指出，"Moore's Law is dead" 。