加大底层技术自研,对亚马逊云科技这样的领先者来说,其意义在于实现“我有人无,人有我优”。亚马逊云科技基于半导体和芯片层面的创新,是重构云计算底座的重要支撑,也是持续引领云计算行业的动力源泉。
年是亚马逊云科技成立的15周年,也是云计算行业诞生的15周年。始于2012年的亚马逊云科技re:Invent全球大会,一直是全球云计算领域的行业风向标。
亚马逊云科技作为云计算的探路者,创新的步伐从来没有停止,在re:Invent的第十个年头,亚马逊云科技的风头不减,再次以大量的创新惊艳业界。一个显著的趋势就是亚马逊云科技正在加速自研芯片,重构云计算的底座。
未来云上的新型工作负载对于计算创新的要求是无止境的,而发生在底层的创新,往往是最具备颠覆性的。因此亚马逊云科技从半导体和芯片层面开启了创新,也是云厂商里面最早做自研芯片的。
亚马逊云科技首席执行官 Adam Selipsky 表示,“尽管我们已经如此努力地创新,我们依然意识到,如果希望针对所有可能的工作负载彻底变革计算的性价比,我们需要彻底重新思考实例。为了实现这个目的,我们需要深入底层技术,一直到芯片。因此,我们开始自己设计基于Arm的芯片。”
亚马逊云科技的芯片创新其实从2013年已经开始,到现在已拥有Nitro、Graviton、人工智能机器学习自研芯片三条产品线。2018年首次推出的基于自研芯片Graviton的实例以后,客户逐渐将从Cache到Web到数据分析,甚至机器学习和高性能计算等工作负载部署到Graviton。
2021 re:Invent上,亚马逊云科技不仅发布了四个新的基于Graviton2的实例,还宣布推出新一代基于Arm的自研CPU处理器Amazon Graviton3,这也是亚马逊云科技自研设计的第三颗CPU处理器。在过去的20年里面,提升CPU性能最容易的两个方向,一个是提高频率,一个是增加内核数量,但这往往会带来散热、耗电量、成本的增加。Graviton3 GPU的晶体管数量达到了500亿个,相对于Graviton2的300亿个,增加了67%。并且使用了指令并行的方式,让内核在同一个时钟周期里面能够执行更多的指令、完成更多的任务,因此不必过分的追求高频率。在执行类似矢量的向量运算时,在同一个执行周期里会更快地完成像视频、图像的转码处理,以及机器学习和一些高性能计算的工作负载。
另外,Graviton3大幅提高了内存带宽,相较于Graviton2以及Intel的tool平台提升了50%,在很多应用上面的效果非常直接。由Amazon Graviton3处理器支持的C7g实例是云中第一个采用最新DDR5内存的实例,与基于Amazon Graviton2的实例相比,它提高了50%的内存带宽,从而提高了科学计算等内存密集型应用的性能。
C7g实例与由 Graviton2 处理器支持的当前一代 C6g 实例相比,可将计算密集型工作负载性能提高多达25%。并且在相同性能下,与同类型EC2实例对比,可节省高达60%的能源消耗。与基于Amazon Graviton2的实例相比,C7g实例的网络带宽也高出20%。
Graviton的大量使用,已经衍生到了许多工作负载里面。例如SAP HANA Cloud也开始使用Graviton,去帮助企业级的客户提升运营效率、提高性能。11月底,Graviton曾获得中国计算机学会高性能计算委员会颁发的产品创新奖。
机器学习这几年发展非常快,机器学习配套的各种专业的加速芯片的发展速度也是非常快的,从P3、P3dn再到P4d、Trn1发展速度,每年的机器学习专用芯片的演进提升速度都是超过翻倍的速度在提升,比通用CPU快得多。
在re:Invent上亚马逊宣布提供基于Trainium的Trn1实例,而Trainium是亚马逊云科技去年宣布研制的机器学习训练芯片。在自然语言训练里面有一个很典型的模型GPT-3,一个两周训练周期的GPT-3模型,如果使用P3dn需要600个实例,使用p4d需要128个实例,而使用Trn1n则仅需96个实例,实例下降以后,成本会有很大的节约。与P4d实例相比,通过Trn1实例训练深度学习模型的成本降低多达40%。
Trn1实例可以提供800Gbps EFA网络带宽(比最新基于GPU的EC2实例高两倍),并与Amazon FSx for Lustre高性能存储集成,通过具有EC2 UltraClusters功能的Trn1实例,开发人员可以将机器学习训练扩展到一万多个与 PB 级网络互连的 Trainium 加速器,即便是最大型和最复杂的模型,训练时间也可以从几个月缩短到几天。
亚马逊云科技的自研芯片还扩展到了存储产品。采用全新自研 Amazon Nitro SSD的Im4gn/Is4gen/ I4i实例,可以提供高达 30 TB 的 NVMe 存储,与上一代I3实例相比,I/O 延迟降低了 60%,延迟可变性降低了 75%,从而最大限度地提高了应用程序性能,可为I/O密集型工作负载提供超高存储性能。
Amazon Nitro SSD通过优化存储堆栈、虚拟化管理程序和硬件与Amazon Nitro 系统紧密集成。与使用商用SSD相比,亚马逊云科技同时管理Amazon Nitro SSDs的硬件和固件,使SSD更新交付速度更快,让客户可以从改进的功能中获益。Im4gn 实例(现已可用)采用 Amazon Graviton2 处理器,与 I3 实例相比,性价比提高多达 40%,每 TB存储成本降低多达 44%。Is4gen 实例(现已可用)也采用 Amazon Graviton2 处理器,与 I3en 实例相比,每 TB 存储成本降低多达 15%,计算性能提高多达 48%。
加大底层技术自研,对亚马逊云科技这样的领先者来说,其意义在于实现“我有人无,人有我优”。纵观云计算业界,基础设施服务成为所有云服务商的基础服务,未来制胜的关键在于,谁能以更高的性能、更高的效率、更低的成本、更低的能耗提供这些服务。
在2021年7月Gartner关于云计算的魔力象限(Magic Quadrant)报告中,亚马逊云科技毫无悬念地再次“霸榜”,在执行力与行业远见两个方面均大幅领先其他所有竞争对手。亚马逊云科技基于底层的创新,是重构云计算底座的重要支撑,也是持续引领行业的动力源泉。
网友评论