NVIDIA A100登陸AWS，象徵加速雲端運算領域未來十年的開端

當時以 CUDA 為基礎的應用程式主要集中在加速科學模擬，而 AI 和深度學習的興起還遙遙無期。此後 AWS 又陸續加入穩定的雲端 GPU 執行個體，包括 K80 (p2)、K520 (g3)、M60 (g4)、V100 (p3/ p3dn) 和T4 (g4)。隨著全新 P4d 執行個體今日正式上路，AWS 將在最新 NVIDIA A100 Tensor Core GPU 的支援下，為加速運算領域的下一個十年打穩基礎。

全新 P4d 執行個體為機器學習訓練與高效能運算應用程式，提供 AWS 上採用 GPU 之最高效能、最具成本效益的平台。與預設的 FP32 精準度相比，使用 FP16 的執行個體訓練機器學習模型的時間縮短了三倍，使用 TF32 進行訓練的時間縮短了六倍。

這些執行個體亦提供了極為卓越的推論表現。上個月，NVIDIA A100 GPU 於 MLPerf Inference 基準測試項目中所向披靡，其效能較 CPU 快上 237 倍。每個 P4d 執行個體皆搭載 8 個 NVIDIA A100 GPU，客戶可以透過 AWS UltraClusters 使用 AWS Elastic Fabric Adaptor (EFA)，以及提供可擴展高效能儲存裝置的 Amazon FSx，每次依需求調整規模以取得超過 4,000 個GPU。

P4d 提供 400Gbps 網路，並且使用 NVIDIA 的 NVLink、NVSwitch、NCCL 及 GPUDirect RDMA 等技術，進一步加速處理深度學習訓練的作業負載。EFA 上的 NVIDIA GPUDirect RDMA 在伺服器之間將資料從 GPU 傳遞到GPU，無需通過 CPU 和系統記憶體，確保低延遲的網路。

此外，許多 AWS 服務都支援 P4d 執行個體，包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 及 Amazon SageMaker。P4d 還能使用 NGC 所提供的各種經過優化的容器化軟體，包括高效能運算應用程式、AI 框架、預先訓練模型、Helm chart，以及 TensorRT 和 Triton 推論伺服器等推論軟體。

現在可於美國東部和西部地區使用 P4d 執行個體，很快地將會開放給其它地區使用。用戶能夠以隨需執行個體(On-Demand)、Savings Plans、預留執行個體 (Reserved Instance) 或 Spot 執行個體等方式來購買。

GPU 雲端運算的第一個十年，已經將超過 100 exaflops 的 AI 運算能力帶入市場。現在有了 NVIDIA A100 GPU支持的 Amazon EC2 P4d 執行個體，將為 GPU 雲端運算領域的下一個十年開創美好的開端。