AMD走出自己的路小芯片设计若何打造业界最强64核EPYC？_处置器_架构

文章目录 [+]

AMD的最近一次逆袭，还得从5年前改换CEO提及。
2014年10月份，即将发布Q2季度财报的AMD公司宣告CEO罗瑞德逊位，这个职务将由时任COO的苏姿丰博士（Lisa Su）接任。
那时候的她，刚刚加入AMD公司2年而已。

彼时的AMD仍旧处于蛰伏阶段。
在CPU及GPU领域，AMD的两大对手Intel、NVIDIA已是如日中天，而当时的AMD并没有能足够与之博弈的处理器和显卡产品——如今给AMD带来巨大转机的Zen处理器当时还在开拓当中。
不过，CEO苏姿丰是标准的女强人，AMD不服输的血性是刻在骨子里的。

AMD走出自己的路小芯片设计若何打造业界最强64核EPYC？_处置器_架构 AMD走出自己的路小芯片设计若何打造业界最强64核EPYC？_处置器_架构智能

刚刚接任CEO没多久，苏姿丰就在接管媒体采访时表态——“我们不会活在Intel阴影下”，这句话不是苏姿丰担当CEO之后AMD才做的，多年来AMD实际上一贯在这样做。
AMD希望寻求一条不同于Intel的发展之路。

（图片来自网络侵删）

太远的不说，从X86处理器进入64位时期开始，AMD首次在64位指令集上做到了胳膊拧过大腿——大家津津乐道的K8大锤处理器最关键的成功不是架构，而是抢先了64位指令集，如今我们在用的X86_64指令集的名字是AMD64，Intel后来也屈服了这一指令集。

在这之后，AMD在X86处理器发展上一贯在走自己的路。
2011年，AMD推出了推土机Bulldozer架构，这款处理器的设计思路非常前辈，2个整数单元+1个弹性浮点单元的设计迎合了AMD收购ATI之后意图打造的CPU+GPU协同发展的理念，这种模块化设计是X86发展的一个里程碑。

推土机首发桌面8核处理器

再后来，AMD推出了我们本日谈论的主角Zen核心，这一代的处理器架构设计可谓具有打破性的改进，也同时延续了AMD自己的特色。
它的问世不但让AMD实现了逆袭，也给AMD打下了未来十年的根本，目前发展到了Zen2，从路线图上看，Zen4架构已经在研发了。

Zen架构实现52% IPC性能提升模块化设计重出江湖

十年磨一剑，终成大器！
2017年3月2日，AMD终于拿出了Zen核心的锐龙处理器，重返高性能处理器市场。
Zen架构的到来，给了AMD旋转场合排场的机会。
在K10、推土机两代架构之后，这是AMD再一次冲击X86市场，AMD也多次表态要再现辉煌，夺回失落地。

关于第一代Zen架构的改进细节，这里就不一一赘述了。
两年前发布的产品在网上已经有大量评测和解析了，我们只提AMD在重新设计了内核、SMT多线程、缓存、Infinity Fabric总线等单元之后，Zen架构实现的目标吧。

AMD之前流传宣传Zen架构实现了40%以上的IPC提升，不过终极发布时，AMD表示其实际IPC性能提升了52%，远超预期。
比较以往的K10、推土机架构有了质的改变，比对手挤牙膏式的架构升级也是天翻地覆的变革。

在上述架构改变中，AMD重新设计的CCX（CPU Complex）架构是最主要的。
每个CCX单元有4个CPU核心，每个核心各自有64KB L1 I-Cache（指令缓存）、32KB L1 D-Cache（数据缓存）、512KB L2缓存，L3缓存高达8MB，但是4个核心共享的。

这样4核CPU组合的CCX算是AMD Zen架构的一个模块，在第一代中桌面处理器最多8核16线程，里面是2个CCX单元，二者之间利用Infinity Fabric总线（简称IF总线）连接，而IF总线又是Zen架构的另一个仅次于CCX的创举。

桌面处理器锐龙7 1800X的物理核心如下图所示：

桌面版锐龙7 1800X处理器开盖后的核心

用于做事器版的Naples处理器最多32核64线程，也便是8组CCX单元，分配在4组CCD（Core Chiplet Die）单元中。
不过这时候AMD还没有正式用CCD这个命名，直到现在的Zen2架构中才涌现这个命名。

做事器版EPYC 32核（Naples）处理器开盖后的核心

桌面版由于最多8核，以是只有1个CCD单元，表面看起来跟原生8核没什么差异，而做事器版是32核，有4组CCD单元，可以更清晰地显示出AMD在Zen（改进型Zen+是一样的架构）的设计思路——那便是模块化。
不过，这个模块化跟推土机的模块化不一样，属于创新模块，不是将内核模块，而是将CCD模块化，须要多少核心就配置相应的CCX/CCD核心即可。

摩尔定律放缓 AMD另辟路子：Zen2走向稠浊小芯片设计

在14nm Zen及改进型的12nm Zen+这两个系列的产品中，AMD办理了高性能处理器的有无问题，52%的IPC性能提升彻底改变了AMD处理器的处境，不过Zen第一代的产品依然谈不上完美，AMD要在新一代的Zen2架构上办理两个问题。

一个问题是连续提升Zen的IPC性能，另一方面则是要连续扩展Zen处理器的并行性，也便是更多的CPU核心。
只管AMD在Zen一代上已经实现了桌面8核、做事器32核，核心数上连续领先，但这还没有达到AMD的目标，要大幅超出才行。

前一个问题要靠连续挖掘Zen架构的潜力，后一个问题就不但是架构设计的问题了。
工程实现上难度更大，由于AMD在Zen2架构上要做64核128线程，并首发7nm工艺，将打造迄今为止最强大的X86处理器。

在友商也只能做到28核的情形下，AMD做64核处理器最寻衅的地方是什么？答案很大略，那便是本钱，由于摩尔定律在最近几年中已经放缓了，AMD如果连续按照原有的思路做下去，那64核EPYC处理器的本钱是弗成思议的。

对付这一点，AMD有着复苏的认识，此前AMD CEO苏姿丰在2017年的一次会议中就比拟过前辈工艺对本钱的影响。
统一以250mm2的核心来算，45nm节点的本钱算作1，32、28nm节点开始提升，20nm节点就变成2倍本钱了，到了7nm本钱跃升为4倍，未来的5nm更夸年夜，本钱将是之前的5倍。

很显然，在Zen2架构确定要上7nm的时候，如果按照之前的路线走，后果就只有两种——要么造不出来，要么造出来本钱极高，由于按照AMD之前估算的那样，如果是原生64核，那么核心面积靠近800mm2了，这险些是现有193nm ArF光刻机的处理极限，制造难度太大了。

当然，我们现在都知道了Zen2架构不会采取这样的原始办法，由于AMD在这一代X86处理器上用了升级的Chiplets稠浊小芯片设计，这也是未来处理器的发展方向。
它比第一代Zen的小芯片更为高明，让Zen2有了洗手不干的变革，以一种更奥妙的办法实现了首款64核128线程X86处理器。

Zen2小芯片架构剖析：CPU核心面历年夜降 IO搭配更灵巧

什么是chiplets小芯片设计？业界并没有统一的定义，大略来说这是一种新兴的芯片设计思路，将大芯片化为多个小芯片，每个芯片的功能则比较单一，而且可以搭配不同的工艺，以实现提高性能、增加良率、降落本钱的目的。

在7nm Zen2处理器上，AMD实现稠浊小芯片设计的办法便是将CPU与IO单元分离，分别称为CCD（Core Chiplet Die）、IOD（IO Die），在一代Zen架构中每个CCD单元都是一样的，每颗CCD都包含IO部分，1-4组CCD单元实现了8-32核的并行；而在Zen 2架构中，IO核心被分离了出来，1个IO核心连接所有CPU核心。

而且这个IO核心不须要利用7nm工艺，而是14nm（EPYC霄龙）或者12nm（Ryzen锐龙）工艺，核心面积分别是416mm2、125mm2，里面根据须要集成了不同数量的DDR主控、PCIe主控、IF总线等IO单元。

Zen2架构的CPU剥离了IO单元，变成了纯粹的CPU微内核，再加上7nm工艺比较14nm工艺带来了一倍旁边的晶体管密度提升，以是在核心面积上7nm Zen2大幅缩小，单个小芯片面积只有74mm2，整合的L3缓存高达16MB，而Zen一代上一个芯片的面积是213mm2，个中核心部分只占120mm2，别的的都是IO单元的面积，由此可见Zen2架构采取小芯片设计带来的上风极其明显。

那么AMD采取小芯片设计到底有多大的收益呢？我们可以确定的是这种设计的良率会很高。
到底有多高？AMD官方没有公布过详细数据，不过第三方剖析称8核Zen2的良率达到了93.5%，在台积电7nm 12英寸晶圆上可以生产出749个8核处理器，生产32核心也有187个，本钱上风明显。

当然，这样的算法只是用于评估Zen2采取小芯片设计带来的本钱上风，真实本钱要比纯代工本钱高很多，还得算上研发、封装测试本钱。
但怎么来算，这种设计都授予AMD在本钱掌握上极高的灵巧性，远非原生大核心可比的。

末了还有一个问题值得关注，那便是延迟，虽然CPU、IO核心分离办理了超多核心的并行问题，但是IO、CPU分离开来也会导致延迟增加，这跟原生多核比较是个劣势。
不过AMD在Zen2架构也针对此做了改进，包括IF2总线及缓存上的改进。

作为Zen2处理器CPU、IO及CPU核心之间的总线，IF2代采取了总线频率、内存频率分离式设计，担保可以达到更高频率和尽可能低的延迟，总线速率从前代的10.7GT/s提升到了18GT/s，数据传输更快。

而且每个CCD单元有各自的Infinity Fabric PHY物理层，通过它和I/O Die芯片内的数据总线(Data Fabric)进行高速互连通信——把稳，两颗CPU芯片之间没有直接通信，都要经由I/O Die，这样可以担保不同核心、缓存之间的延迟是同等的。

此外，缓存方面也做了改进，一方面Zen2架构的L3缓存翻倍，每个CCX单元配备的L3缓存从8MB翻倍到了16MB，8核处理器是32MB L3缓存，64核的EPYC处理器最多拥有256MB L3缓存，远高于前代及对手产品。

另一方面，Zen2的内存频率也大幅提升，前代EPYC支持的内存频率不过2666MHz（桌面Ryzen为2933MHz），这一代官方数据是做事器和桌面都可以支持3200MHz，但这个数据可能比较守旧，据称桌面端可以一键超频到4200MHz，高者可达DDR4-5133Mhz。

还有一点须要强调的是，Zen2率先支持了PCIe 4.0标准，在IO的带宽上也有了长足的提升和保障。

64核EPYC处理器性能碾压式胜利冲破140多项天下记录

得益于Zen2架构的性能改进及64核128线程的超多核心，第二代霄龙EPYC 处理器一经问世就冲破了多项性能天下记录，官方最新统计显示有140多项记录被64核128线程的EPYC刷新。

AMD冲破性能记录的领域设计HPC、浮点运算、整数运算、Java、DB/ERP、能耗、大数据、云打算及渲染等，险些席卷了每一个须要高性能打算的市场。

64核EPYC处理器的性能不但是AMD官方自吹自擂，许多第三方评测网站也证明了AMD所言不虚——InsideHPC、Serverthehome、TheNextPlatform等专业网站也做了大量EPYC处理器性能测试，结果也显示64核128线程的EPYC处理器在性能上有非常明显的上风，大幅领先对手的28核56线程至强。

AMD不但是在性能上有上风，同时价格上也要比对手便宜——64核128线程的EPYC 7742处理器只要6950美元，而对手的28核至强8280处理器售价超过1万美元，顶配版要1.3万美元，是AMD 64核的2倍旁边。

上面价格比拟不仅显示了AMD EPYC霄龙处理器的高性价比，实际上也反响了与友商的本钱差距——AMD采取的小芯片设计大幅降落了本钱，而友商原生28核的设计使得制造难度极高，本钱很难降落。

AMD对核心永久不知足引爆X86核战

2019年是AMD成立50周年，X86处理问世41年。
在过去几十年的历史中，X86处理器的舞台上紧张留下了AMD及Intel两家公司，期间虽然大部分韶光都是Intel在主导X86发展，但AMD也屡次实现了技能创新上的反超，像64位，造诣AMD曾经辉煌的超传输总线技能等等，如今，在多核X86上，AMD再次占了上风。

为了尽可能提升多核性能，AMD在第一代Zen处理器上首次利用了chiplets技能。
而在最新的Zen2处理器上，AMD又创始了Hybrid Multi-die架构的稠浊小芯片Chiplets设计，打算die和IO die采取不同的制程，授予X86多核处理器极高的灵巧性，使得AMD办理了7nm等前辈工艺制造本钱高、难度高、良率低的问题，可以更灵巧地扩展CPU核心。
这种堆积木的稠浊式组合使得桌面处理器达成达成了16核，做事器处理器轻松达到64核128线程。

末了的结果也证明，AMD这次赌对了。
它不仅在桌面处理器上创造了天下首款12核、16核游戏处理器锐龙9系列，在做事器市场上更是凭借64核128线程大杀四方，性能及售价双重上风明显。

AMD引爆了X86处理器的“核战”，而且是主动出击，这也给对手Intel出了一个难题。
后者目前最强的至强处理器也只有28核56线程，核心数方面与EPYC二代差距甚大，在性能上已经无法与之竞争，而且本钱上更无还手之力——AMD EPYC 64核在核心数翻倍的情形下售价只有一半旁边，这样的吸引力对云打算、数据中央等客户是无法抵抗的。

更恐怖的是，彷佛AMD未来也不会停滞这样的核战。
AMD CTO Mark Papermaster在接管采访时表示，市场对处理器核心数没有天花板限定，软件正在快速针对多核CPU进行优化，可以充分发挥多核多线程的上风。
AMD在核心数方面不会停滞进步。

根据AMD官方发布的路线图，现在7nm Zen2架构之后的两代处理器已经确定，Zen3已经完成研发，Zen3之后，Zen4架构也在按操持研发设计中。
虽然详细规格现在还没有确切，不过可以确定的是——AMD在X86处理器上已经重回领导者地位了。