
ADVERTISEMENT
為了解決AI運算晶片越來越燙的問題,Microsoft研發的微流體元件散熱技術直接將冷卻的工作液體透過細微管路引導至晶片,達到3倍散熱效果。
直接從晶片內部散熱
應用於資料中心與伺服器的GPU(繪圖處理器)、ASIC(特定應用積體電路)等AI運算晶片產生的廢熱遠高於一般晶片,然而Microsoft微軟雲端營運與創新高級技術專案經理Sashi Majety預估目前的冷卻技術將在5年內達到瓶頸。為了解決這個問題,Microsoft成功測試了稱為微流體元件(Microfluidics)的新型散熱方案,其散熱效果比目前先進且常用的冷板(Cold Plate)方案高出3倍。
延伸閱讀:
Microsoft DevDays Asia 2025亞太技術年會推廣AI應用,分享企業導入AI工作流程心得
NVIDIA投資美金1,000億元與OpenAI合作建設100億瓦運算系統,透過超級智慧訓練並執行新一代模型
GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛
微流體元件方案的核心概念為在晶片背面直接蝕刻出微小的凹槽,讓這些凹槽成為水流通道,讓冷卻工作液體直接流入晶片內部,並直接接觸熱量的來源,以達到更理想的散熱效果散熱。研究團隊甚至能夠利用AI識別晶片的熱源訊號,精確地引導工作液體流經最熱的區域。
研究人員表示,目前大多數GPU都採用冷板方案,然而晶片內部採用多層封裝,會像毯子一樣阻隔熱傳遞,造成冷板無法直接碰觸到熱源,因此限制了散熱的效果。微流體元件方案能夠改善這個問題,更強的散熱能力也有助於提高下一代AI晶片的運作效率,同時提升企業永續性。
微流體元件方案的技術重點包含研發適合應用於晶片凹槽的蝕刻加工方式,以及如何將蝕刻技術整合至晶片的製造流程,接著還需設計防漏水封裝,並找到最佳冷卻工作液體的配方。
當晶片生產完成後,還有其他技術困難需要一一克服。由於整個資料中心的構造非常複雜,尺度從小而大由晶片、主機板、伺服器、機架等元件組成,因此導入微流體元件方案也需對這個堆疊的每一部分進行微調,以確保系統能夠流暢運作且最佳化散熱效率。
解放3D晶片散熱問題
Microsoft 365核心管理技術研究員Jim Kleewein表示,微流體元件方案的優點之一是能夠更精準地針對晶片的特定部位進行散熱,有助於在晶片超頻時壓制溫度並保持穩定,以利在短時間遇到大量運算負載時,透過短暫的超頻舒解效能瓶頸,以提高伺服器工作調度的靈活性。
另一方面,微流體元件方案具有更高的散熱效率,同時代表著散熱系統需要消耗的電力越少,而且相同體積的散熱系統能夠應付更多晶片,這有助於在單一資料中心內緊密排列更多伺服器,並因位於同一資料中心而降低伺服器間的通訊延遲,對於整體運算效能有正面助益。
在微流體元件方案發展更成熟後,有望成為全新3D晶片封裝架構的基石,由於它能讓散熱工作液體流入封裝的各層堆疊之間,因此能夠解決3D封裝散熱不良的問題,而得到類似前述高密度伺服器的優勢。單一3D封裝內能夠容納更多小晶片(Chiplet)與運算單元,且堆疊多個小晶片能夠降低彼此通訊的延遲,打造運算密度更高的晶片。
Microsoft表示將持續研究微流體元件方案,並將其融入未來的自行研發晶片,並與晶圓代工廠以及半導體夥伴合作,以達到量產並部署於資料中心的目標。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!