亚马逊推出第二代Arm做事器芯片Graviton2能否快速替代x86？_芯片_实例

文章目录 [+]

关于re：Invent的更多宣布，请查看雷锋网发自现场的《芯片问世、Outposts上市、SageMaker大更新，AWS如何成为“规则改变者”？》宣布。

终极，设计良好的Arm做事器芯片在数据中央中的表现如何将被证明。
我们不必等待任何传统的和新贵做事器芯片制造商说服做事器互助伙伴来构建和支持，软件互助伙伴也可以加入并证明其堆栈和运用程序可以在芯片上运行。

亚马逊推出第二代Arm做事器芯片Graviton2能否快速替代x86？_芯片_实例亚马逊推出第二代Arm做事器芯片Graviton2能否快速替代x86？_芯片_实例科学

亚马逊网络做事本身便是一个生态系统，它拥有很多自己的堆栈，因此它可以像在拉斯维加斯举办的re：Invent年夜将Graviton2处理器发布后，Marvell，Ampere和其人就可以考试测验跟上。

（图片来自网络侵删）

AWS首席实行官安迪·贾西（Andy Jassy）宣告其与安纳布尔纳实验室（Annapurna Labs）共同设计的第二代做事器级Arm处理器，这意味着其向英特尔和AMD清楚地表明了，不须要x86处理器来运行大量事情负载。

利用x86芯片运行事情负载要付出高昂的代价，无论是租用还是购买，这便是AWS要自己设计芯片的主要缘故原由。
显然，这还处于早期，但是，如果有一半的大型或超大规模云做事供应商也效仿并构建Arm Neoverse架构的定制（或勉强定制）版本，并且相称积极，那么X86做事器芯片年发货量可能会在很短的韶光内从X86迁移到Arm（两到三年）。

微软绝不掩饰笼罩地表示其希望50%的做事器利用Arm处理器，最近已开始在其“ Olympus”机架式做事器内支配Marvell的“ Vulcan” ThunderX2处理器。
微软并没有透露其支配的规模，但是我们预测它的数量为数万个，与其做事器机群中的数百万台机器无关。
谷歌已经涉足相对大型的Power处理器，并且已经进行了一些支配，但同样不知道其规模。

有传言称谷歌是高通 “ Amberwing” Centriq 2400处理器最大的支持者，并且有传言称它可能会基于Arm架构自主设计SmartNIC处理器和做事器，但是鉴于专利授权问题，Google有可能直策应用开源RISC-V指令集。

阿里巴巴在过去三年一贯涉足Arm做事器，并于7月宣告了基于RISC-V的玄铁910芯片。
华为海思推出了64核鲲鹏 920，我们认为这是Arm推出的“ Ares” Neoverse N1设计的一种变体，目标客户可能是中国的超大规模客户，云做事供应商，电信公司和其他做事供应商。

实际上，我们认为亚马逊的Graviton2与鲲鹏920类似，它们可能从Arm Ares借用了大量设计。
与所有Arm设计一样，它们不包括内存掌握器或PCI-Express掌握器，必须从第三方得到容许。

去年的这个时候，AWS推出了第一代Graviton Arm做事器芯片，具有16个运行在2.3 GHz的vCPU，采取台积电的16纳米工艺。
AWS从未确认Graviton处理器是否具有16个不带SMT的内核或8个带双向SMT的内核，但我们认为它不具有SMT，而仅仅是一个的“ Cosmos”内核，是经由调度的Cortex-A72或Cortex-A75内核。

AWS的EC2打算设备上的A1可支持多达32 GB的主内存，并通过其做事器适配器供应高达10 Gb /秒的网络带宽，以及高达3.5 Gb /秒的弹性块存储（EBS）带宽。
我们认为该芯片只有一个带有两个通道的内存掌握器，类似于针对超大规模处理器的Intel XeonD。
这并不是一个令人印象深刻的Arm做事器芯片，更像是一个强大的智能网卡芯片。

“在AWS的历史上，一个重大的迁移转变点是我们收购了Annapurna Labs，这是由一群以色列非常有才华和专业的芯片设计和制造人才组成的团队，我们决定设计和制造芯片更强性能的芯片。
” Jassy在re：Invent的开幕主题演讲中阐明道。

“只管包括我们在内的许多公司已经利用x86处理器很永劫光了，英特尔是非常紧密的互助伙伴，并且我们也越来越多地开始利用AMD，如果我们想提高性价比，就意味着我们必须做一些创新。
我们与安纳布尔纳峰团队互助，我们认为它们可以在性能和真正主要的方面供应故意义的差异，我们认为人们确实在广泛地做到这一点。
他们开始利用的第一个芯片是基于Arm的芯片，我们称为Graviton芯片，该芯片是我们去年在A1实例中发布的，这是云中第一个基于Arm的实例，这些实例旨在用于扩展事情流，因此是容器化的微做事和Web层运用程序之类的东西。
”

A1实例有成千上万的客户，但是正如我们过去和现在所指出的那样，就吞吐量而言，它并不是一个出色的做事器芯片，至少与同类产品比较没有。
AWS知道这一点，其他人也知道。
这是一种考试测验。

“当我们启动A1实例时，我们想知道三个问题，” Jassy连续说道。
“首先是：有人会利用它们吗？第二个问题是：互助伙伴生态系统是否会加强支持人们利用基于Arm的运用所需的工具链？第三个是：我们能否在Graviton芯片的第一个版本上进行足够的创新，以使您可以利用基于Arm的芯片来处理更广泛的事情负载？在前两个问题上，我们感到非常惊喜。
可以在幻灯片上看到这一点，徽标的数量，客户的负载以我们未曾想到的办法利用A1实例，并且互助伙伴生态系统确实以非常主要的办法加强并支持了我们的基本实例。
“

”第三个问题，我们是否真的可以在该芯片上进行足够的创新，我们不太确定，这是我们几年前开始在第二版Graviton缘故原由的一部分，纵然我们正在构建第一个版本，我们不知道是否能够做到这一点，这可能须要一些韶光。
”

据我们所知，Graviton2更像是一个吞吐量引擎，并且看起来也可以在核心级别与当代x86芯片保持同等，而单线程性能是衡量标准。

拥有超过300亿个晶体管和多达64个vCPU的Graviton2芯片，同样，我们认为这些是真正的内核，而不是线程数量的一半。
我们知道Graviton2是7纳米Neoverse N1的变体，这意味着它是Arm为帮助客户加快速率而开拓的“ Ares”芯片的衍生产品。
根据Arm的说法，Ares Neoverse N1的最高速率为3.5 GHz，内核没有内置多线程同步功能，介于2.6 GHz和3.1 GHz之间。

Ares内核具有64 KB的L1指令高速缓存和64 KB的数据高速缓存，并且跨内核的指令高速缓存在芯片上是同等的。
Ares设计为每个核心供应512 KB或1 MB的专用L2高速缓存，并且核心复合体具有分外的高带宽，低延迟通道，称为Direct Connect，将内核连接到网状互连，该互连将片上系统的所有元素连接在一起。
按照Arm结合Ares的办法，它可以在单个芯片或全体小芯片中扩展最多128个内核。
64核变体具有八个内存掌握器和八个I / O掌握器，以及32个核心对及其共享的L2缓存。

我们认为Graviton2看起来很像64核Ares参考设计，在个中添加了一些功能。
个中一项功能是内存加密，通过启动时在做事器上天生的256位密钥完成，并且永久不会离开做事器。
（尚不清楚利用哪种加密技能，可能是AES-256。
）

亚马逊表示，Graviton2芯片的性能是首款Graviton芯片的7倍，浮点性能是2倍。
第一统计数据在芯片级别故意义，而第二统计数据必须在核心级别，否则毫无意义。
（AWS暗昧不清。
）从16核升级到64核可为供应4倍的整数性能，而从2.3 GHz升级到3.2 GHz则可供应39％的性能提升，而一贯上升到3.5 GHz则可供应其余的50％的性能。
最主要的是，整体收益是原来的6倍。

剩下的便是缓存体系构造，每时钟指令（IPC）和全体层次构造的内存带宽方面的改进。
将浮点向量的宽度更加很随意马虎且足够正常。
AWS表示，Graviton2芯片的单核高速缓存是其两倍大，并具有额外的存储通道（根据定义，它险些必须如此），并且这些功能一起使Graviton2的存储速率比初代Graviton快5倍。
坦率地说，令人感到惊异的是它的速率并没有超过10倍，特殊是如果Graviton2具有8个以3.2 GHz运行的DDR4内存通道时。

有趣的是，AWS将当前M5已经运行的vCPU与即将推出的基于Graviton2芯片的M6g运行的vCPU进行了比较。
AWS并未详细解释在哪种实例配置上利用了哪种测试，因此以下数据可能是苹果、苹果酱和保龄球的稠浊体。
M5实例基于Intel的24核“ Skylake” Xeon SP-8175 Platinum（主频为2.5 GHz）；该芯片是为AWS定制的，与库存的Xeon SP-8176 Platinum部件比较，内核少了四个，时钟速率（400 MHz）略高。

以下是在每个vCPU的根本上，Graviton2 M6g与各种事情负载相对付Skylake Xeon SP实例的堆叠办法：

SPECjvm 2008：+ 43％（估计）

SPEC CPU 2017整数：+ 44％（估计）

SPEC CPU 2017浮点数：+ 24％（估计）

Nginx的HTTPS负载平衡：+ 24％

内存缓存：性能提高了43％，延迟更短

X.264视频编码：+ 26％

利用Cadence Xcellium进行的EDA仿照：+ 54％

须要指出，这些比较使Arm芯片上的内核与超线程相对应（因此，单线程性能低落，从而提高了芯片吞吐量）。
这些都是显著的性能提升，但是在比较中，AWS不一定会把其最好的Xeon SP放在首位。
EC2 C5实例基于“ Cascade Lake” Xeon SP处理器，所有核心睿频频率为3.6 GHz，看起来它们有激活了超线程功能的一对24核芯片，可以在单个映像中供应96个vCPU。

R5实例基于Skylake Xeon SP-8000系列芯片（精确到未知），内核运行于3.1 GHz。
看起来这些实例还具有一对启用了HyperThreading的24核芯片。
在每个vCPU的根本上，它们都比M5实例快得多，并且在全体vCPU的吞吐量方面也更具可扩展性。
这些C5和R5上的额外时钟速率很可能会填补每个vCPU的性能差距。
（但也很难确定。
）

这里的紧张不雅观点是，我们疑惑这样是否可以使AWS比较从Intel购买处理器更便宜，如果本钱减少20％就足以做到这一点，但是Jassy说，价格/性能上风约为40％。
（大概是在将设计和生产Graviton2的实际本钱与我们认为是M5实例中定制Skylake Xeon SP进行比较）。
因此，AWS推出了Graviton2处理器以支持Elastic MapReduce（ Hadoop），弹性负载平衡，ElastiCache以及其云上的其他平台级做事。

对付其他人，Graviton2芯片将供应三种不同的配置作为EC2打算根本架构做事上的实例：

通用（M6g和M6gd）：1至64个vCPU和最多256 GB的内存

优化打算（C6g和C6gd）：1至64个vCPU和最多128 GB的内存

内存优化（R6g和R6gd）：1至64个vCPU和最大512 GB内存

“ g”表示Graviton2芯片，“ d”表示其具有用于实例受骗地存储的NVM-Express闪存。
所有实例将具有25 Gb /秒的网络带宽和18 Gb /秒的弹性块存储做事带宽。
也将有裸机版本，看看AWS是否履行CCIX互连以创建两路乃至四路NUMA做事器还是坚持单路设计，这将非常有趣。

M6g和M6gd实例现在可用，打算和内存优化版本将在2020年可用。
芯片，平台和软件堆栈现在都可以从同一家供应商处得到。
关于做事器平台，我们什么时候可以这么说？

雷锋网编译，via The Next Platform

雷锋网年度评比——探求19大行业的最佳AI落地实践

创立于2017年的「AI最佳掘金案例年度榜单」，是业内首个人工智能商业案例评比活动。
雷锋网从商用维度出发，探求人工智能在各个行业的最佳落地实践。

第三届评比已正式启动，关注微信"大众号“雷锋网”，回答关键词“榜单”参与报名。
详情可咨询微旗子暗记：xqxq_xq