微軟、Meta、Google狂缺數十萬張GPU，NVIDIA的生產瓶頸到底卡住了誰？

最近GPU Utils網站發佈了一份關於NVIDIA H100的研究報告，梳理有關GPU供應和需求的相關問題。報告指出，在美國市場的背景下，我們看到目前阻礙大模型和人工智慧發展的關鍵瓶頸GPU短缺是如何形成和發展的。

總而言之，GPU會出現瓶頸的原因可能有許多面向，包含環環相扣的複雜技術製造流程、半導體產品生命週期、對稀缺資源的搶佔與恐慌、人工智慧的研發突然爆發，這些都讓GPU的發展變得無比緊張。但如果樂觀地看待GPU的發展，這瓶頸將在2024年有所緩解。

▲ H100 GPU

數十萬張缺口，價值200億美元的產業需求

每個想要在AI爆發中分一杯羹的人，都需要GPU。精準地說，NVIDIA的A100和H100，GPU在訓練和推理大數據模型中扮演關鍵角色。如果要想要從頭訓練大數據模型，至少需要上千張A100或H100，而推理和微調大數據模型至少需要儲存100張。

每間公司需要多少數量，報告顯示，GPT4在1萬到2.5萬塊A100上訓練，Meta有2.1萬塊A100，特斯拉有7000塊，Stability AI有5000塊，Google雲大概有2.5萬塊H100，微軟Azure 有1萬到4萬塊，Oracle可能也有同樣多的H100。值得一提的是，Azure的GPU基本都用來供應OpenAI的訓練了。

根據馬斯克的說法，GPT5的訓練可能會用到3萬到5萬張H100，因此對未來的估計上，報告指出OpenAI可能需要5萬張H100，Meta至少需要2.5萬張（也有人說實際上需要10萬乃至更多），所有的雲端服務廠商，微軟、Google cloud、Amazon Cloud、Oracle各需要3萬張，私有雲服務商，比如剛剛融資的CoreWeave等，總需求是10萬張，而像Claude的開發者Anthropic這樣的初創公司也都至少需要1萬張GPU。

另外，一些金融公司比如JP Morgan也在部署A100或H100，因此總體上看，對H100的需求超過了43萬張。

這還不包含中國市場的情況，由於經濟制裁的原因，字節跳動、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產品A800與H800，這一部分的需求沒有列入其中，根據《金融時報》的說法，其總額高達50億美金。

如果將這些需求數量相加，目前NVIDIA面對的是總計規模高達200億美元的GPU需求。

▲ H100家族，從單個GPU到組合擴展而成的工作站和伺服器。

NVIDIA執行長黃仁勳沒有騙你，真的買的越多，省得越多。

作為A100的更新版，H100擁有著更好的性能，儘管它的價格更昂貴，單張約為3.5萬美元。根據產量需求和成本，大部分企業都把A100和H100混用以節省成本。具體來說，在大數據模型訓練環節往往會使用3.2Tb/s 無限頻寬（IB）的H100 GPU，在模型推理環節，則往往也可以使用A100。

相比A100，H100的升級主要體現在具有更低的快取延遲和FP8計算能力，這兩者都顯著提升了顯示卡處理模型的效率。另外H100還具有更好的拓展性，方便實現大規模部署。整體來說，H100的16位元訓練速度，快了2.3倍，推理速度快了3.5倍。根據報告指出，它的成本是A100的1.5倍到2倍。

關於H100晶片的組合形式有多種，包括NVIDIA自己設計的DGX H100 ，但市場上大部分公司都選擇購買8個GPU版本的HGX H100 伺服器，它是由NVIDIA的合作夥伴們生產的，價格大致在36萬到38萬美元之間。

HGX也有兩種版本，配備SXM介面或者PCIe介面，報告指出市場上70%到80%的需求都是SXM H100，因為這種介面可以實現最大的吞吐量並且不需要連接電源。市場對H100的趨之若鶩，與競爭對手形成了鮮明的對比。

▲ NVIDIA官方給出的關於訓練GPT3時A100和H100的不同表現對比

市場上沒有對手

根據NVIDIA的更新節奏，H100的升級版直到2024年底或2025年才會贏來，在此之前它將繼續統領大數據模型市場。然而它的競爭對手並沒有坐以待斃，比如AMD剛剛推出了名為MI300系列的晶片，Intel有名為Gaudi2的加速計算晶片，它們至少在理論上都是NVIDIA的競爭對手。

然而在實際上，他們面對著比NVIDIA更大的問題。報告中主要指出AMD的問題。首先重新組態AMD的裝置，就算它可以完美適用大數據模型訓練任務，也需要開發和偵錯的時間，這意味著在時間上將會落後於競爭對手。

其次，一個模型的訓練成本接近3億美元，對晶片的需求往往會超過1萬張，沒有人會冒風險大規模使用，除了NVIDIA以外的晶片。最後，複雜的生產技術一方面限制NVIDIA GPU，同樣也限制著AMD的產量，MI250同樣難以獲得。

至於另一個競爭對手Gaudi2，由於Intel自己擁有工廠，因此在產量上比較具備優勢，但Gaudi2是一款幾乎全新的晶片，針對它的研究和測試還非常少。事實上，Intel還在對其進行各種配套開發與品質提升，預計到今年下半年才能除錯完畢，這時H100已經上市一年多了。因此總結下來，H100就是是訓練大模型最佳的GPU，沒有之一。

▲ H100 NVL

GPU瓶頸到底在哪里？

目前，H100的供應已經相當短缺，有傳言說微軟Azure和Google cloud的容量實際上已經快用完了，Amazon Cloud也面對同樣的情況，傳言目前下單需要等數月乃至半年。

導致稀缺的原因是多方面的，最主要的問題是GPU，涉及一系列極端複雜的技術，需要世界上最先進的生產技術，掌握這項技術的工廠—台積電，它的產能是有限的。

目前H100都由台積電代工，使用4N技術，也就是增強型5奈米製程（相比之下A100使用的是N7），這幾乎是目前最複雜的晶片製作技術，從開始生產到出售給客戶，H100中間經歷的生產、包裝和測試環節一共需要6個月左右。這代表著對H100的生產需要NVIDIA和台積電進行提前佈局，這在半導體行業來說是經常的事，但這一次NVIDIA和台積電顯然都對H100需求出現了錯誤的判斷。

因為ChatGPT爆發是去年底的事，那時關於今年的生產計畫（至少是上半年的計畫）已經規劃好了，台積電總體的生產能力有限，還需要在不同的大客戶之間分配，而產能爬坡需要一個很長的過程，再加上生產H100的技術含金量極高。

在一篇報告中特別指出，所謂CoWoS封裝（Chip on wafer on Substrate 晶片、晶圓、基板封裝），它目前的月產量是8000片，今年底有望提升至 11,000 片， 2024 年底則達到每月 14,500 至 16,600 片左右的水平。換句話說，想要提升一倍的產量，就需要花上一年半，這當然和技術複雜有十分密切的關係。

這直接影響了H100的生產，更何況，並不是只有一家在使用CoWoS封裝技術，NVIDIA的競爭對手AMD以及博通、思科和賽靈思等都同樣在使用這種技術製作晶片。因此，台積電的半導體產能，限制了GPU的供應。

另外，H100所使用的HBM3系列記憶體也是一個生產難點。報告指出NVIDIA主要在使用SK海力士的記憶體，後者是這一領域的領軍者，特別是在HBM記憶體的研發上。HBM技術直接把記憶體堆疊放在GPU晶片上，達到更高的頻寬和更低的功耗。

在2023年4月20日，SK海力士宣佈在全球率先研發出12層堆疊的HBM3記憶體，單顆容量達到24GB。記憶體容量越大，意味著GPU可以裝載更大的數據模型，然而HBM3記憶體的生產過程十分複雜，產量提升同樣困難重重。

實際上另外幾家晶片大廠，比如三星和美光，都很難提升HBM記憶體的產量，據說SK海力士正在根據NVIDIA的要求增產，在剛剛過去的SIGGRAPH 2023 上，黃仁勳發佈了GH200超級晶片的更新版，採用了增強的HBM3E記憶體，這可以看作是NVIDIA在記憶體領域同供應商密切協作的一個例子。

▲ 裝有8個H100 的 HGX 伺服器

稀缺性螺旋、配貨機制與GPU金融化

NVIDIA在財報電話會上談到，儘管沒有對具體數字做任何承諾，但台積電以及上下游供應鏈的積極協調，H100的產量會逐漸提升。

當我們理解GPU瓶頸的時候，並不能簡單把它等同於產能瓶頸，這是報告中沒有明確指出，稀缺同時還由各種市場和非市場因素造成。

當然，首要的還是NVIDIA本身對產品的分配。GPU本就稀缺，因此在服務客戶的角度上，NVIDIA推行了一套和奢侈品配貨制度頗為類似的機制，那就是由NVIDIA來挑選自己的客戶。

報告中指出，哪些客戶能拿到多少GPU有賴於NVIDIA的規劃，而NVIDIA更傾向於為那些沒有開發競品晶片的企業優先分配GPU，例如Google cloud、Amzone Cloud和Meta都在開發自己的晶片，因此NVIDIA似乎更願意和Oracle合作，DGX cloud基礎架構的第一個合作對象就是Oracle。

其次，NVIDIA希望瞭解最終的客戶是誰，它更傾向於為大企業和強大的初創公司提供算力，比如說NVIDIA投資的AI公司 Inflection 就擁有一個巨大的H100叢集，而小型雲端服務商CoreWeave則擁有比Google cloud更多的H100。

CoreWeave完全使用NVIDIA的GPU，同時也不打算自己做晶片，因此更得NVIDIA青睞，NVIDIA甚至還參與了它的B輪融資。CoreWeave的GPU資源有多少？它使用基於H100的雲端服務訓練，GPT3大數據模型只用了11分鐘，相比之下OpenAI用一萬張A100訓練了14.8天。

▲ CoreWeave提供的價格列表，HGX H100 每小時價格為4.76美元。

基於這種配貨的機制，市場上的GPU流動極不平衡，GPU變得不是只要有錢就能買到的東西，這助長了另一種屯物與壟斷資源的稀缺性。

大數據模型的演算法和資料技術難度相對比較透明，相形之下，電腦運算是一道紮實且無法踰越的護城河，有多少GPU直接決定了AI公司的能力強弱，因此GPU囤積變成了許多公司下意識的行為，囤貨造成GPU的稀缺。

不見產量提升再加上業界的配貨傳聞，造就稀缺的預期，就像對通貨膨脹的預期會真的導致通貨膨脹一樣，對缺貨的預期進一步加劇了缺貨。某種程度上，導致了GPU變成戰略資源，進而成為一種金融衍生品。

CoreWeave 在八月初剛剛進行了一筆價值23億美元的債務融資，抵押物正是手中的H100，如果這筆錢純粹是基於對H100的市場均價（這裡取37萬美元）估出來的話，意味著CoreWeave手中有超過6000台HGX H100，也就是近5萬張顯示卡。

▲ 在去年的GTC上，黃仁勳介紹H100

結語

GPU的缺貨嚴重影響了AI的發展，OpenAI 首席執行官Sam Altman說過，使用我們產品的人越少對我們反而越好。當然你可以說Sam Altman得了便宜賣乖，但某種程度上，這也是他的真心話，電腦運算處理能力的瓶頸限制著所有人，這足以說明人類對AI突破的到來多麼缺乏準備。

生成式AI和transformer架構都不是最新的發現，它們的理論在很早就在學界廣為流傳，業界也不乏大舉投入其中的公司，然而直到ChatGPT和Stable Diffusion出現之前，它們不過是人們認知中通往人工智慧的某種方向而已，類似的方向還有很多，而並沒有人真的確定哪條道路是正確的。

由此我們可以看出NVIDIA的佈局是多麼具有前瞻性，把原本用於讓電腦顯示圖形的平行計算應用於神經網路，這讓NVIDIA比其它任何人都更早地積累了一系列相關技術、演算法以及硬體裝置，並由此創造了CUDA生態，現在它們共同支撐起了NVIDIA萬億市值，成為一道短期內很難攻破的企業護城河。

正如GPU的產能短期內恐怕得不到解決一樣，AI產業短期內依然要被NVIDIA的資源所左右，NVIDIA正在決定生成式AI的未來。

FB 建議貼文

微軟、Meta、Google狂缺數十萬張GPU，NVIDIA的生產瓶頸到底卡住了誰？

數十萬張缺口，價值200億美元的產業需求

市場上沒有對手

GPU瓶頸到底在哪里？

稀缺性螺旋、配貨機制與GPU金融化

結語

2026 COMPUTEX AI Together