引入3D缓存,三级缓存容量达1152MB!
EPYC 9084X系列处理器解析
我们知道,缓存的存在是为理解决打算和存储之间的鸿沟,利用昂贵、高速但是小尺寸的SRAM来补充CPU和内存之间的速率鸿沟,同时提高数据命中率,一贯以来都是CPU提高性能的不二法门。不过,缓存在超过一定容量之后,后续就很难再对所有运用都带来显著的性能提升了,更明显的性能提升来自缓存敏感型运用,在桌面运用中紧张是游戏,在企业级运用中紧张是数值打算类运用,比如流体剖析、流体仿照、有限元、打算流体力学等运用,这些运用的场景紧张是实验室、设计单位、大型企业等,是HPC也便是超级打算机的紧张客户群体。
因此针对这些运用的需求,AMD这次特殊推出了代号“Genoa-X”的EPYC 9084X系列处理器。与代号“Genoa”的EPYC 9654、EPYC 9554等处理器比较,该产品最大的不同便是增加了3D缓存,即3D V-Cache。从技能实质上来说,Genoa-X的3D V-Cache和之前的产品没有任何不同,都是通过TSV硅穿孔技能,将额外的SRAM缓存芯片直接倒装连接到CPU核心晶圆上预留的缓存连接位置。从AMD给出的图片来看,Genoa-X的采取的是稠浊键合的办法实现了CPU核心和SRAM核心的连接。AMD可以为每个CCD增加64MB SRAM L3缓存,是原生CCD中包含的32MB的2倍。由于额外增加的缓存是直接连接到全体CCD的缓存总线上的,因此完备可以视作相同的、同等的、均一确当地L3缓存,不存在任何速率、级别方面的差异。
拥有3D缓存的EPYC 9684X处理器也采取SP5 LGA6096封装,不论是在处理器大小面积,还是处理器厚度上,它都与EPYC 9654完备相同。

AMD处理器的3D缓存技能紧张由稠浊键合、硅通孔、CCD、构造硅片、64MB 3D三级缓存芯片组成。
之前的EPYC 9004系列处理器最多拥有12个CCD,因此AMD要打造EPYC 9084X系列处理器的话,只需在每个CCD上堆叠64MB 3D缓存,相称于统共外置12×64MB=768MB L3缓存,再加上CCD内部原有的12×32MB=384MB L3缓存,总计最多可以实现768MB+384MB=1152MB缓存。这也是EPYC 9084X系列处理器能实现大容量三级缓存的关键缘故原由。
AMD为每个CCD堆叠了64MB的3D V-Cache
AMD的稠浊键合技能可以有效提高芯片的互联密度与能效比,其连接密度相对2D工艺高了200倍,互联密度相对纯挚利用微凸点工艺高了15倍,芯片互联的能效也比微凸点工艺提高了3倍。
目前,EPYC 9084X系列处理器统共包括EPYC 9684X、EPYC 9384X和EPYC 9184X三款产品,其型号后缀都带一个“X”,这也是所有3D V-Cache产品独占的标识。这三款产品的核心数量从高到低分别是96、32和16。比较没有带3D V-Cache的普通EPYC 9004系列产品而言,比如比拟EPYC 9654,EPYC 9684X的基准频率高了一些,两款处理器的最大Boost频率则都坚持3.7GHz不变,但EPYC 9684X的全核心频率为3.42GHz,比EPYC 9654的3.55GHz全核心频率要略低一些。同时基准频率的提升、缓存容量的大幅增加也让EPYC 9684X的Default TDP热设计功耗达到了400W,而EPYC 9654的Default TDP为360W。三级缓存方面,由于EPYC 9684X利用了全部12个CCD,以是它的3D V-Cache容量达到了768MB,三级缓存总容量为768MB+384MB=1152MB缓存。
EPYC 9084X系列处理器紧张拥有三款型号,它们在核心、线程数,缓存容量上各不相同。
剩下两款定位稍低的3D V-Cache EPYC处理器设置则更为守旧,与同为32核心、64线程的EPYC 9354比拟,EPYC 9384X的基准频率、最高加速频率都要略低一些,功耗为320W。尽监工作频率稍低,但三级缓存的大幅增加还是让EPYC 9384X处理器的Default TDP比EPYC 9354的280W略高一些。EPYC 9184X也是类似情形,其最高加速频率比同为16核心、32线程的EPYC 9174F的最高加速频率低了200MHz,额外的L3缓存还是在频率上带来了些许影响,Default TDP仍为320W。
此外,EPYC 9084X系列处理器的这三款产品也可以根据用户需求、散热条件等进行灵巧配置,其处理器功耗可以配置到320W~400W。三级缓存容量方面,由于EPYC 9384X和EPYC 9184X只利用了8个CCD,以是它们的3D V-Cache容量为64MB×8=512MB,三级缓存总容量为512MB+32MB×8=768MB。虽然EPYC 9084X的SKU只有三款,但实际上对HPC用户来说,这样的产品设计已经基本上可以知足用户需求了。AMD给出的运用范围显示,16核心的EPYC 9184X适宜电路自动化设计的客户,32核心的EPYC 9384X则适宜电路自动化设计、流体打算、有限元剖析和构造剖析场合,96核心的EPYC 9684X则除了不适宜须要高频率的电路自动化设计外,别的的场景都是其运用范围。
根据AMD的官方数据,在CFX、流体、LS-DYNA、OpenFOAM等实际测试中,96核心的EPYC 9684X比拟60核心的至强铂金8490H拥有很大的领先幅度,最大可以达到2.2~2.9倍性能上风,均匀也有2.2~2.4倍性能上风。借助于生产工艺与架构的上风,目前AMD做事器处理器在技能规格上已经远胜于对手,能有这样的成绩完备在我们猜想之中,毕竟竞争对手的产品在处理器核心数量、打算线程数量上也大幅掉队。那么面对没有3D V-Cache的EPYC 9004处理器,特殊是在核心、线程数量上完备相同的产品,EPYC 9084X系列处理器在那些缓存敏感型打算中是否有明显上风呢?
在专业运用上,96核心的EPYC 9684X比拟英特尔60核心的至强铂金8490H拥有压倒性的性能上风。
为此我们特殊采取同为96核心、192线程设计的EPYC 9654处理器与EPYC 9684X处理器进行了比拟测试,让我们看看在核心、线程数相同,缓存容量有明显差异的场景下,缓存容量更多的EPYC 9684X处理器表现如何。
我们如何测试本次测试统一稽核的是双路系统的性能,因此EPYC 9684X、EPYC 9654处理器都统一利用了AMD Titanite SP5 2P2U双路主板。内存方面,两款处理器单路支持12条内存通道,双路系统支持24条内存通道,因此我们也为它们采取了24通道内存配置。本次测试所利用的内存为三星DDR5 4800 64GB,内存总数量为24根,内存总容量为1.5TB,搭配美光9300系列企业级NVMe SSD。
本次测试统一稽核的是双路系统的性能,EPYC 9684X、EPYC 9654处理器都统一采取了AMD Titanite SP5 2P2U双路主板,12通道、24条内存配置。
接下来我们在Ubuntu 22.04操作系统下对两款处理器的性能进行了全面测试。为了让读者更好地理解这两款处理器在浩瀚企业级产品中的性能水准,我们还在部分测试中引入了其他处理器已经测试过的成绩。它们是128核心、256线程配置的双路EPYC 9554系统,64核心、128线程配置的双路EPYC 9374F系统,以及128核心、256线程配置,利用DDR4 3200内存的双路EPYC 7763系统。后者从属第三代EPYC霄龙处理器,采取Zen3处理器架构、TSMC 7nm生产工艺。
第四代AMD EPYC处理器双路系统测试平台一览
处理器:EPYC 9684X×2
EPYC 9654×2
内存: 三星DDR5 4800 64GB×24
主板: AMD Titanite
硬盘: 美光9300系列企业级NVMe SSD
系统: Ubuntu 22.04
基准性能测试接下来我们首先采取SPECrate 2017、UnixBench Dhrystone 2和Whetstone、Sysbench CPU、HPL与DGEMM测试了处理器的基准性能。
结果令人满意。借助大得多的三级缓存容量与更高的基准频率,EPYC 9684X在所有基准测试中都得到了领先。个中在SPECrate 2017测试中,EPYC 9684X的整数性能、浮点性能分别领先EPYC 9654 8.5%、14.1%;在表示处理器双精度浮点性能与整数性能的Whetstone和Dhrystone 2中,EPYC 9684X也拥有一定上风,分别领先EPYC 9654为4.58%、0.54%;在Sysbench CPU测试中,EPYC 9684X则得到了相对EPYC 9654多达6.93%的领先上风。在HPL与DGEMM测试中,EPYC 9684X的上风收窄,分别为0.45%、1.34%。从测试中来看,SPECrate 2017、Sysbench CPU比较受缓存容量的影响,因此EPYC 9684X会有较大的上风,而HPL、DGEMM、UnixBench的影响较小。
内存性能测试内存性能测试中,我们仍采取Stream测试两款处理器的内存性能,由于EPYC 9684X支持12通道DDR5 4800内存系统,以是从测试成绩来看,它的内存性能表现也非常精良。其双路内存带宽达到747955MB/s,比双路EPYC 9654系统的内存带宽还要略高一些,相对双路DDR4 3200 8通道内存系统上风巨大。
运用性能测试接下来我们测试了两款处理器在C-ray光芒追踪、FFmpeg x264视频编码等专业运用中的性能表现。在这些常见运用中,拥有3D V-Cache的EPYC 9684X也拥有很明显的上风。如在C-ray 1.1 4K光芒追踪测试中,EPYC 9684X的耗时只有EPYC 9654的一半,在C-ray 1.1 8K光芒追踪测试中,EPYC 9684X的耗时也比EPYC 9654少了14.3%。
我们还利用FFmpeg中的编码工具测试了两个双路系统的视频编码性能,编码器为x264,测试处理器在live场景中的编码速率即帧率。同样EPYC 9684X也有小幅领先,其编码速率比EPYC 9654双路系统快了2.8%。我们认为涌现这个结果的紧张缘故原由还是在于视频编码过程中,数据的存取操作频繁,且数据量大,是制约编码器性能的紧张成分之一,以是拥有更大缓存容量的EPYC 9684X双路系统具备一定上风也在情理之中。
新增运用性能测试:libxsmm
除了以上测试,我们还专门增加了部分对缓存敏感的运用测试。首先我们利用Libxsmm进行了测试,它是一个用于专门的密集和稀疏矩阵运算以及深度学习原语的开源库,支持利用Intel AMX、AVX-512和其他当代CPU指令集功能。Libxsmm目前紧张用于HPC高性能打算、ML机器学习,以及AD自动驾驶。可以看到,在利用libxsmm库打算时,拥有3D缓存的EPYC 9684X拥有巨大的上风,其算力高达7445GFLOPS,相对EPYC 9654领先多达67.5%,得到了质的飞跃。
新增运用性能测试:OpenFOAM
OpenFOAM则是目前领先的免费开源打算流体动力学 (CFD) 软件,在这个测试中,我们将利用drivaerFastback案例来剖析汽车或老旧摩托的空气动力学,并打算其剖析实行韶光,数值显然是越小越好。同样EPYC 9684X在该测试中拥有压倒性的上风,其任务实行韶光只需83.76s,而EPYC 9654则需耗时108.51s,EPYC 9684X的任务实行速率比EPYC 9654快了29.5%。
新增运用性能测试:HeFFTe
HeFFTe是作为百亿亿次打算项目的一部分而开拓的高效傅里叶变换库。傅里叶变换 (FFT) 用于许多领域运用,包括分子动力学、频谱估计、快速卷积和干系旗子暗记调制、无线多媒体运用。用户可以在不同配置、选项下利用HeFFTe内置的基准测试,非常适宜对CPU进行测试。显然在这类密集型打算中,3D缓存可以带来显著的浸染,EPYC 9684X在利用HeFFTe库进行打算时,其算力可达135.81GFLOP/s,而EPYC 9654的算力为109.88GFLOPS,前者领先23.6%。
新增运用性能测试:POV-Ray
接下来我们采取常见的POV-Ray对两款处理器的性能进行了测试,POV-RAY即持久视觉光芒追踪器是一种用于创建逼真照明图像的开源工具,测试将利用光芒追踪来创建3D图形。测试中,软件将丈量两款处理器的光芒追踪完成韶光,数值越小越好。测试结果与C-ray类似,在光芒追踪测试中,拥有3D缓存的EPYC 9684X霸占上风,只是在POV-Ray中,其领先上风幅度有所缩小,EPYC 9684X的光芒追踪实行速率比EPYC 9654快了6.5%。
新增运用性能测试:NAS Parallel Benchmarks
我们还利用了NASA为高端打算机系统开拓的基准测试—NAS Parallel Benchmarks即NAS并行基准测试,该测试紧张用于评估超级打算机的并走运算性能。其基准测试来源于打算流体动力学软件,我们在该软件中测试了两款处理器的块三对角求解性能,数值越大越好。结果与OpenFOAM基于流体动力学的软件类似,三级缓存容量达到1152MB的EPYC 9684X拥有压倒性的上风,在该测试中领先EPYC 9654高达40.1%。
新增运用性能测试:John The Ripper
John the Ripper是一款开源密码安全审核和密码规复工具,可用于许多操作系统,支持数百种哈希和密码类型,在本次测试中紧张测试两款处理器的MD5加密性能,测试数值越大越好。测试结果同样证明更大的三级缓存容量是有效的,在这个测试中EPYC 9684X小胜对手,加密性能领先EPYC 9654约1.4%。
新增运用性能测试:Rodinia
末了我们则采取了Rodinia这款专注于密集型运用程序的套件进行测试,Rodinia包含了运用程序支持的CUDA、OpenMP和OpenCL并行模型。由于测试的是处理器,以是我们在测试中则选用OpenMP模型,测试处理器进行流体动力打算的能力。测试结果的数值为处理器完成打算的韶光。显然处理器打算性能越强,所花韶光就越少,以是测试数值是越小越好。
结果也完备在我们的猜想之中,与OpenFOAM、NAS Parallel Benchmarks这些基于流体动力学的测试类似,EPYC 9684X的表现更好,其打算实行韶光更少,打算实行速率比EPYC 9654快了8.36%。
3D V-Cache便是最大元勋综合以上大量测试,显然依赖3D V-Cache,EPYC 9684X是一款非常有代价的产品,本次测试中,它在所有测试中都降服了EPYC 9654。特殊是在libxsmm、C-ray光芒追踪,以及HeFFTe、OpenFOAM、NAS Parallel Benchmarks等流体动力学打算中,EPYC 9684X都拥有压倒性的上风。我们认为根本缘故原由就在于3D V-Cache的利用。毕竟处理器获取数据紧张有两个来源,一个是直接在处理器内部的缓存中获取,一个是在外部内存中获取。
由于SRAM、DRAM两种存储介质的性能不同,再加上物理位置也大不相同,一个近在咫尺,另一个远在天边,以是缓存的传输速率、延迟表现都远优于内存,内存的传输速率一样平常只有三级缓存的八分之一到十分之一。而EPYC 9654的三级缓存总容量为384MB,EPYC 9684X的三级缓存总容量达到1152MB,容量提升200%,这也就意味着EPYC 9684X的缓存可以存储更多的数据,处理器有更大的概率在自己的缓存中找到须要处理的数据,无须再到“慢吞吞”的内存中查找数据,处理器无效等待数据传输的韶光大幅降落,自然处理器的打算效率,处理器的打算性能都可以得到显著提升,特殊是在那些打算量大、待处理数据多的密集型打算中,EPYC 9684X就能表示出很大的上风。
为了每天完成16500个流体打算任务,AMD方面仅须要配置12台EPYC 9384X双路做事器,英特尔则须要配置21台至强铂金8462Y双路做事器,在组建本钱、能耗比上AMD也有很大的上风。
更值得一提的是,到目前为止,不论是在消费级产品还是企业级产品上,竞争对手都未能推出同类产品,在缓存容量、处理器核心数量、打算线程数量、性能乃至组建本钱、能耗比上都有巨大差距。以是对付有流体打算、数据压缩、光芒追踪、有限元剖析、电路自动化设计和构造剖析需求的用户而言,以EPYC 9684X为首的EPYC 9084X系列处理器便是打造高性能、高能效比、高扩展性专业办理方案的不二之选。