英伟达 A100 GPU 登陆亚马逊云服务,推理性能比 CPU 快237倍

中文国外 11 月 4 日信息 凭据英伟达官方的信息,在 AWS 运转 NVIDIA GPU 十周年之际,AWS 公布了接纳斩新 A100 的 Amazon EC2 P4d 实例。

中文国外打听到,现在已所有上市的斩新 AWS P4d 实例接纳非常新 NVIDIA A100 Tensor Core GPU。A100 计较卡接纳了 7nm 工艺的 GA100 GPU,这款 GPU 领有 6912 CUDA 焦点和 432 张量焦点。GPU 封装尺寸为 826毫米2,集成了 540 亿个晶体管。

英伟达显露,斩新的 P4d 实例,为机械学习练习和高性能计较使用供应 AWS 上性能与老本效益非常高的 GPU 领域。与默许的 FP32 精度比拟,斩新实例将 FP16 机械学习模子的练习时间削减多达 3 倍,将 TF32 机械学习模子的练习的时间削减多达 6 倍。

这些实例还供应出色的推理性能。NVIDIA A100 GPU 在非常近的 MLPerf Inference 基准尝试中一骑绝尘,完成了比 CPU 迅速 237 倍的性能。

每个 P4d 实例均内置八个 NVIDIA A100 GPU,通过 AWS UltraClusters,客户能够行使 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 供应的可扩大高性能存储,按需、可扩大地同时走访多达 4,000 多个 GPU。P4d 供应 400Gbps 网页,通过使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技术,进一步加速深度学习练习的工作负载。EFA 上的 NVIDIA GPUDirect RDMA 在服务器之间可通过 GPU 传输数据,无需通过 CPU 和体系内存,从而确保网页的低耽误。

您可能还会对下面的文章感兴趣: