NVIDIA发布全新7nm安培GPU架构 A100加速卡亮相

PChome | 编辑: 单亚凯 2020-05-15 11:28:15原创

5月14日晚,NVIDIA正式推出了代号为安培的7nm全新Ampere GPU架构,并宣布了使用A100加速卡的首批产品DGX A100超算服务器,主要面向HPC计算与AI运算等行业客户。

5月14日晚,在GTC 2020线上发布会上,NVIDIA正式推出了代号为安培(Ampere)的GPU架构,CEO黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能升级,并宣布了搭载该架构的首批产品DGX A100。首先提醒广大游戏玩家们,先不要兴奋,因为此次仅仅是公布新的GPU架构,首批产品也是面向HPC计算、AI人工智能运算等行业客户,对于个人消费者来说意义不大,大家最关注的全新7nm RTX游戏显卡还需要等等。

NVIDIA在2017年发布了基于Volta架构的GV100 GPU以及V100加速器,依靠Volta架构全新的张量核心和强大的GPU功能极大地扩展了其数据中心业务。时隔三年之后,NVIDIA希望Ampere能够成为Volta的继任者,以维持其数据中心业务的增长。

首款基于Ampere架构的GPU产品是Tesla A100加速卡,通过多项技术创新,Tesla A100加速卡不仅可以用于AI推理、AI训练,还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。

安培(Ampere)架构基于TSMC 7nm工艺制程打造,新的A100核心面积达到826m㎡,晶体管数量达到542亿,是上代GV100的2.5倍。全新的A100加速卡采用108组SM单元,6912个CUDA核心,采用SXM4接口,非常适合在服务器中安装。A100的TDP达到了400W,相比V100最高350W进一步增加,因此核心频率略微降低,从V100的1.53GHz降低到了1.41GHz,甚至比Pascal的1.48GHz还低一点。

显存方面,A100配备最高40GB容量的HBM2显存,频率2.4Gbps,位宽5120bit,频率与位宽的同时提升让A100的核心带宽达到了1.6TB/s,相比V100的900GB/s提升巨大。

从表面参数来看,A100相比V100,常规的FP32、FP64性能提升并不算很大,由V100核心的15.7、7.8TFLOPS分别提升到了19.5、9.7TFLOPS。但要注意的是,A100支持多种高精度训练格式以及用于推理的较低精度格式,提供了远超Volta或Turing的性能,无需任何代码改变就可以让AI性能提升20倍。

在机器训练方面,NVIDIA新增了3种格式的支持:bfloat16、TF32和FP64。TF32(Tensor Float 32)是NVIDIA推出的一种较低精度的格式,目的是提供快速的FP32张量操作,NVIDIA认为这对于需要比FP16更大范围但不需要更高精度的AI需求很有用。

而在张量核心方面,Ampere有了重大创新,相比Volta架构的640个Tensor Core,A100核心的Tensor Core数量虽然减少到了432个,但是性能大幅增强,支持全新的TF32运算,浮点性能156TFLOPS,INT8浮点性能624TOPS,FP16性能312TFLOPS。

Ampere的张量内核(包括CUDA)支持替代16bit格式,TF32的实现可以更好的支持FP32数据上的张量操作。Ampere新的张量内核提供的每内核吞吐量比Volta/Turing更高,单个Ampere张量内核的FMA吞吐量是Volta张量内核的4倍,这也是虽然Ampere每个SM的张量内核总数减少了一半(从8个减少到4个),但FMA吞吐量仍然提高了2倍的原因。

另外,Ampere还引入了Multi-instance GPU(MIG)架构,旨在帮助客户充分利用大型GPU,特别是在推理运算的应用情况下。MIG是一种GPU划分机制,允许将一个A100划分为多达7个虚拟GPU,每个虚拟GPU都有自己专用的SM、L2缓存和内存控制器。与CPU分区和虚拟化一样,此系统的原理是为每个分区中运行的用户/任务提供专用资源和可预测的性能水平。从根本上讲,它是一种虚拟化技术,可以使云服务商和其他运营商更好地在A100上分配计算时间。

值得关注的还有一点,Ampere架构搭载了NVIDIA第三代NVLink互连技术。NVLink于2016年首次与Pascal P100 GPU一起推出,是NVIDIA专有的高带宽互连总线技术。相比Volta使用的NVLink 2,新的NVLink 3信号速率从NVLink 2的25.78Gbps提高到50Gbps,提升近一倍。上代的V100加速卡提供了6条NVLink 2总线,总带宽为300GB /秒,但此次A100提供了12条NVLink,总带宽翻倍,达到了600GB/秒。

此外,NVLink 3还可以提供更多的拓扑和链接选项,通过12个链接,单个GPU可以连接到更多交换机。NVIDIA还推出了新一代的NVSwitch,以支持NVLink 3更快的信号速率。

采用Tesla A100加速卡的计算系统DGX A100(DGX 100是NVIDIA全新的DGX服务器产品线)已经面向客户出货。DGX A100是一个完整的系统,包含8个Tesla A100加速器,15 TB的存储,双AMD Rome 7742 CPU(64c/个),1 TB的RAM和由Mellanox提供的网络控制器。NVIDIA表示,DGX A100系统单节点的峰值性能高达:INT8 10 PetaOPS、FP16 5 PFlops、TF32 2.5 PFlops、FP64 156 TFlops。

NVIDIA DGX A100超算官方售价19.9万美元,约合人民币141万元,相比2017年DGX-1V的价格高了近5万美元。

根据NVIDIA透漏,美国阿贡国家实验室(Argonne National Laboratory)已经开始部署DGX A100服务器。另外主流的云服务商,包括亚马逊AWS、Google Cloud、微软Azure在内的数家厂商也有订购DGX A100的意向。

(文中图片来自anandtech)

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑