微軟如何將上萬顆NVIDIA晶片串接，打造出 ChatGPT 背後的這台超級電腦？

人工智慧聊天機器人 ChatGPT 一經推出便火爆全球，但外界可能不知道，ChatGPT 之所以能夠如此智慧，背後依託的是微軟公司為它打造的一台昂貴的超級電腦。

2019 年，當微軟向 ChatGPT 開發商 OpenAI 投資 10 億美元時，它同意為這家人工智慧研究創業公司打造一台龐大的尖端超級電腦。唯一的問題是：微軟沒有 OpenAI 需要的這種電腦，也無法完全確定它能在 Azure 服務中建構這麼大的東西而不會破壞它。

當時，OpenAI 正試圖訓練一套規模越來越大的人工智慧模型，後者正在吸收越來越大的資料量，學習越來越多的參數。這些參數是人工智慧系統通過訓練和再訓練得出的變數。這意味著，OpenAI 需要在很長一段時間內，使用強大的雲端運算服務。

上萬顆晶片、數億美元投資

為了克服這一挑戰，微軟不得不想辦法將數萬顆NVIDIA A100 GPU 組合在一起，並改變伺服器在機架上的位置以防止斷電。微軟負責雲端運算和人工智慧的執行副總裁格思里 (Scott Guthrie) 不願透露該超級電腦的實際成本，但表示「可能不止幾億美元」。

「我們建構了一個可以在超大規模範圍內運行並且可靠的系統架構。這就是 ChatGPT 成為可能的原因，」微軟 Azure 人工智慧基礎設施總經理查普爾 (Nidhi Chappell) 表示，「它是從中得出的一個模型，未來還會有很多很多其他的模型。」

ChatGPT 靠的是超級電腦訓練

這項技術幫助 OpenAI 發佈了 ChatGPT，後者在去年 11 月發佈幾天後就吸引了 100 多萬使用者，現在正被納入其他公司的商業模式，從億萬富翁對沖基金創始人格里芬 (Ken Griffin) 營運的公司，到外賣公司 Instacart。隨著 ChatGPT 等生成式人工智慧工具越來越受到企業和消費者的興趣，微軟、亞馬遜公司和Google等雲服務提供商將面臨更大的壓力，需要確保他們的資料中心能夠提供所需的巨大計算能力。

現在，微軟使用它為 OpenAI 建構的同一套資源來訓練和運行自己的大型人工智慧模型，包括上個月推出的新必應搜尋機器人。微軟還向其他客戶銷售該系統。作為微軟與 OpenAI 擴大合作協議，追加 100 億美元投資的一部分，該軟體巨頭已經在研究下一代人工智慧超級電腦。

「我們不想把它打造成定製產品，它一開始是一個定製產品，但我們總是想辦法把它打造成通用型產品，這樣任何想訓練大型語言模型的人都可以利用同樣的改進，」格思里在一次採訪中表示，「這真的能夠幫助我們成為使用更廣泛的人工智慧雲端。」

訓練一個龐大的人工智慧模型需要在一個地方擁有大量相互連接的圖形處理單元，就像微軟組裝的人工智慧超級電腦一樣。一旦模型投入使用，回答使用者提出的所有查詢，需要稍微不同的設定。微軟還部署了用於推理的圖形晶片，但這些成千上萬個處理器在地理上分散在公司的 60 多個資料中心區域。

微軟週一在一篇部落格文章中表示，現在該公司正在為人工智慧工作負載新增最新的NVIDIA圖形晶片 H100，以及最新版本的NVIDIA Infiniband 網路技術，以更快地共享資料。

新一代超級電腦的建置

目前，新必應搜尋仍處於預覽階段。微軟正在從等待名單中逐漸增加更多使用者。格思里的團隊每天與大約 24 員工舉行會議，後者被稱之為「後勤維修人員」，這一稱呼原指一群在比賽中調整賽車的機械師。該小組的工作是弄明白如何讓更強的計算能力快速上線，以及解決突然出現的問題。

雲端服務依賴的是成千上萬個不同的部件和物品，包括伺服器的各個部件、管道、建築物的混凝土、不同的金屬和礦物，任何一個部件的推遲或供應不足，無論多麼微小，都可能導致功虧一簣。最近，維修人員不得不處理電纜托盤的短缺問題。電纜托盤是一種籃子狀的精巧裝置，用來固定從機器上脫落的電纜。因此，他們設計了一種新的電纜托盤，使得微軟可以自己製造，也可以找地方購買。格思里說，他們還在研究如何儘可能多地壓縮世界各地現有資料中心的伺服器，這樣他們就不必等待新的大樓了。

當 OpenAI 或微軟訓練一個大型 AI 模型時，這些工作是一次性完成的。它被分配到所有的 GPU 上，某些時候各個單元需要相互交流來分享它們所做的工作。對於人工智慧超級電腦，微軟必須確保處理所有晶片之間通訊的網路裝置能夠處理這種負載，並且必須開發出能夠充分利用 GPU 和網路裝置的軟體。該公司現在推出了一款軟體，可以訓練具有數十兆個參數的模型。

由於所有機器都是同時啟動的，微軟不得不考慮它們的放置位置和電源的位置。格思里說，否則，就像你在廚房裡同時打開微波爐、烤麵包機和吸塵器一樣，可能無法負荷。

微軟 Azure 全球基礎設施總監阿利斯泰爾・斯皮爾斯 (Alistair Speirs) 表示，該公司還必須確保能夠為所有這些機器和晶片降溫，並在較冷的氣候條件下使用蒸發、室外空氣，在炎熱的氣候條件下使用高科技沼澤冷卻器。

格思里表示，微軟將繼續開發定製伺服器和晶片設計，並想辦法最佳化供應鏈，以儘可能地提高速度、效率和節省成本。

「現在讓世界驚嘆的模型是建立在我們幾年前開始建造的超級電腦上的。新的模型將建立在我們正在訓練的新型超級電腦上，這台電腦更大，也更精密。」