11月9日,RISC-V做事器芯片设计厂商Ventana Micro Systems在2023 RISC-V峰会上发布了其第二代做事器CPU——Veyron V2,在指令扩展、内核设计、互联标准、制程工艺等浩瀚方面进行了全面升级,官方流传宣传其性能超越了AMD的高端做事器芯片Epyc 9754,堪称最强RISC-V做事器CPU!
同时,Ventana还能够让客户将定制加速器添加到定制片上系统 (SoC) 蓝图中。
早在2022年12月,Ventana公司就曾发布了环球首款基于RISC-V架构的做事器CPU——Veyron V1,采取5nm制程工艺,基于Ventana自研的高性能RISC-V内核,8流水线设计,支持乱序实行,主频超过3GHz,每个集群最多16个内核,多集群最多可扩展至192核,拥有48MB共享三级缓存,拥有高等侧信道攻击缓解方法、IOMMU和高等中断架构(AIA)、支持全面的RAS功能、自上而下的软件性能调度方法,可以知够数据中央的各种需求。号称性能可超越AMD EPYC 7763!
根据Ventana的操持,Veyron V1将于今年下半年上市,但是截至目前仍未有客户选择采取。这或许也是为什么Ventana急于推出Veyron V2的缘故原由。
据Ventana 营销和产品副总裁 Travis Lanier先容,全新的Veyron V2将融入RISC-V规范中的所有更新,比如RVA23功能集,这是今年的RISC-V最新的指令集配置文件,实现了RISC-V输入输出内存管理单元(IOMMU)规范,同时还支持小芯片的UCIe互联标准。
Lanier表示,IOMMU 规范的批准“在 RISC-V 领域是一件大事”。“只要您拥有虚拟机,并且想要直接访问个中一个 PCIe 设备,您就不必实行所有软件开销来切换它,因此这对付数据中央运用程序来说是一项关键功能。”
Veyron V2也希望成为一种基于RISC-V标准的兼容性设计,因此 RISE 支持很主要。
“这也是RISC-V软件生态操持(RISE)兼容性的关键部分,这是一个行业项目,旨在环绕RISC-V构建必要的运用生态系统。”Lanier进一步阐明道。
Ventana还利用RISC-V矢量扩展规范在其核心中添加了512位矢量处理单元,还具有 AI 矩阵扩展功能。Lanier声称这将“对某些天生式 AI 或推理事情负载有很大帮助”。
其余,对付DSA和Chiplet标准UCIe的支持,使得他可以更快地制造芯片,并且可以让客户添加 FPGA,添加 ASIC 加速器等。这增加了灵巧性,但也降落了进入门槛,由于它许可利用利用 UCIe 和 I/O 集线器的较小 IP 块来构建软件包。
Ventana联合创始人兼首席实行官Balaji Baktha在RISC-V峰会上也表示,Ventana客户可以利用其知识产权和其他知识产权在Veyron V2 上创建的潜在CPU设计。
详细到Veyron V2的核心配置方面,基于台积电4nm工艺,依然是基于8流水线设计,支持乱序实行,主频高达3.6GHz,单个集群的内核数量提升到了32个,比较上一代提升了一倍,多集群最多可扩展至192核。缓存的大小也增加到每个核心1MB二级缓存,以及128MB 的共享集群级三级缓存。
Lanier声称,Veyron V2 的所有新的升级使得其性能比较上一代提高了近40%。官方供应的性能预测数据显示,192核的Veyron V2性能超越了AMD高端做事器芯片Epyc 9754!
下面对于Veyron V2几大关键升级进行详细先容:
互联标准的转变
Veyron V2 的一个重大转变是将支持作为Chiplet(小芯片)连接标准的UCIe(Universal Chiplet Interconnect Express )标准,而不是上一代的Veyron V1中的BoW(Bunch of Wires)接口互联总线协议标准。
据理解,BoW协议是一个开放的标准,由开放打算项目中的开放域特定架构小组掌握。包括Ampere Computing、阿里巴巴、AMD、Arm、思科系统、戴尔、Eliyan、富达投资、高盛、谷歌、惠普企业、IBM、英特尔、遐想、Meta Platforms、微软、诺基亚、英伟达、Rackspace、希捷科技、Ventana和Wiwynn都支持BoW,这种广泛而廉价的芯片到芯片互连协议,使跨工艺和供应商稠浊小芯片的承诺成为现实。
但是在2022年3月,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google云、Meta(Facebook)、微软等十大行业巨子成立了Chiplet标准同盟,正式推出了通用Chiplet的高速互联标准“UCIe”,旨在定义一个开放的、可互操作的标准,用于将多个硅芯片(或芯粒)通过前辈封装的形式组合到一个封装中。
UCIe 标准希望与其他连接标准(如 USB、PCIe 和 NVMe)一样普遍,同时为Chiplet连接供应卓越的功率和性能指标,降落IP移植及产品SKU数量提升的本钱,加速Chiplet设计的创新。
虽然HPE、IBM和Nvidia等大厂并没涌如今最初的创始名单当中,但终极他们也加入了UCIe同盟。
Balaji Baktha表示,其在与46家现有的和潜在的客户谈论Veyron V1和V2 CPU设计时,很明显,UCIe是小芯片互连的发展方向。因此,Ventana公司加快了Veyron V2的发布,个中包括大量的RISC-V核心增强,由于它采取了UCI Express而不是BoW进行小芯片互连。
以下是BoW、AIB 2.0和UCIe 1.1互连的比较,这是Lei Shan撰写的一篇论文的补充。Lei Shan曾在IBM TJ Watson研究中央从事互连硬件事情,现在在Arm做事器芯片新创公司Ampere Computing事情:
正如您所看到的,UCIe的数据速率是BoW的两倍,总线带宽可以相同或赶过4倍。信道覆盖范围是UCIe间隔的一半,但链路的功率效率提高了两倍,延迟不到BoW的一半,每毫米的带宽也赶过35%到65%。
Balaji Baktha表示:“如果芯片设计者想利用小芯片,他们必须支持UCIe”。“UCIe背后有着巨大的推动力,由于每个人都想要一个统一的标准。BoW本可以成为这样一个标准的。但我们不想连续构建它,由于UCIe标准有效地办理了封装本钱,并且正在以最佳水平实现。UCIe还办理了3D内存堆叠问题。因此,利用UCIe很随意马虎实现Express 2.0,并利用我们自己的专业知识弥合与UCIe 1.0之间的差距。例如,UCIe根本没有供应到AMBA CHI同等接口总线的链接。因此,我们在UCIe 2.0上添加了AMBA功能。”
支持512位矢量扩展
Ventana希望迅速捉住,并将其纳入Veyron V2核心设计的另一个重大变革是RISC-V Vector 1.0 512位矢量扩展。
该扩展类似于英特尔至强Phi处理器从2015年开始供应的扩展,以及2017年在“Skylake”至强SP处理器中供应的扩展。一年前,该扩展也刚刚被添加到AMD Genoa Epyc处理器中。这些512位矢量引擎实际上并不是英特尔AVX-512的克隆(就像AMD Genoa芯片中的那些至少在软件级别上),但它们足够靠近,不会给想要将代码从X86移植到RISC-V的Linux开拓职员带来一场软件噩梦。
此外,512位矢量扩展将为HPC和AI事情负载供应与X86和Arm处理器有竞争力的性能,在这些事情负载中,CPU将进行AI打算,而不是像GPU和其他加速器一样在CPU上或CPU外部利用加速器。
Ventana为Veyron V2核心添加了512位矢量扩展,使矢量引擎能够支持矩阵运算,并许可客户将自己的矩阵引擎添加到架构中,无论是在核心中还是在利用UCIe链路的离散小芯片中与之相邻。
顺便说一句,Veyron V1核心没有任何向量引擎或矩阵引擎扩展,这显然是一个问题,由于许多人工智能推理仍在CPU上进行,在某些情形下,人工智能演习和HPC仿照和建模也在CPU上完成。
全新的内核架构
Veyron V2设计的另一个重大变革是Ventana创建了一个显著改进的RISC-V内核架构。
通过在Veyron V2核心中更积极地领悟指令处理并进行许多其他调度,Ventana已经能够将一揽子事情负载的每时钟指令(IPC)性能提高20%。
与3GHz主频的Veyron V1内核比较,Veyron V2主频也提高到了3.6 GHz,这将内核的性能再提高了20%,从而在Ventana的Veyron RISC-V CPU内核设计中,从V1内核到V2内核的整体性能提高了40%。
Veyron V2核心是基于台积电4nm工艺设计的,比较上代基于台积电5nm工艺的Veyron V1得到了进一步提升。
Veyron V2内核还支持RVA23体系构造配置文件,该配置文件逼迫利用512位矢量扩展。还有一些在矢量引擎上运行的加密函数。
Ventana的Veyron V2内核还支持RV64GC规范,并实现了一个超标量、无序流水线,每个时钟周期可以解码和调度多达15条指令。由于其IOMMU设计和高等中断体系构造(AIA),Veyron V2核心可以支持类型1和类型2的做事器虚拟化管理程序以及嵌套虚拟化。
Veyron V2核心还具有用于调试、跟踪和性能监控的端口。
以上所有这些都是当代超大规模数据中央做事器CPU所应有的能力。
V1和V2内核都没有同时的超线程,就像亚马逊云和Ampere Computing的Arm内核没有,未来“Sierra Forest”Xeon SP处理器中利用的“Siera Glen”内核也没有。
其余,Veyron V2内核具有512 KB的L1指令缓存和128 KB的L1数据缓存以及1 MB的L2数据缓存。这些内核还有一个4MB的L3缓存,与之干系的是,在Veyron V2的小芯片复合体中的32个内核中,统共拥有128MB的L3缓存。每个小芯片上的核心利用专有的片上网状网络相互连接,该互连为CPU核心、内存和其他I/O供应了高达5TB/秒的聚合带宽。
四个Veyron V2小芯片可以与UCIe互连,以创建一个128核的复合体,如果你真的想打破极限,你可以将最多六个小芯片连接在一起,得到192核。
以下是基于Veyron V2内核的CPU的观点图,它有一个I/O管芯和六个32核Veyron V2小芯片,以及一些特定于领域的加速器链接:
上图显示了I/O集线器与PCI Express 5.0掌握器和DDR5内存掌握器的链接,但如果Ventana公司乐意,可以换成HBM3内存掌握器。默认设计为六个Veyron V2小芯片上有十二个DDR5内存掌握,四个Veyron V2小片上有八个,这与我们目前在任何做事器CPU中看到的配置是一样的。
性能超越AMD Epyc 9754
Ventana的Veyron V1发布之时,号称性能超越AMD EPYC 7763。那么Veyron V2的性能又能有多强呢?
以下是Ventana如何仿照Veyron V2的整数性能,以及每个插槽的原始SPECint2017性能:
按照Ventana公布的数据来看,一个192核的Veyron V2 RISC-V CPU的整数吞吐量将比AMD“Bergamo” Epyc 9754处理器高23%,该处理器在相同的360瓦功率范围内有配备了128核和256线程;同样,Veyron V2也比96核的AMD“Genoa” Epyc 9654高了34%旁边;与56核的Intel “Sapphire Rapids”Xeon SP 8480 比较,Veyron V2性能更是达到了其2.7倍,这并不奇怪,由于Veyron V2有3.4倍的内核和1.7倍的线程,只管Veyron V2内核必须以较低的时钟速率运行;其余一款基于Arm Neoverse V2的64核产品彷佛的是亚马逊云(AWS)Graviton3的替代品,拥有64核心,性能比Intel Sapphire Rapids Xeon SP 8480 芯略高,但是也仅为Veyron V2的一半不到。
支持DSA
Veyron V2还支持 DSA(面向某个特定的领域定制优化的设计),该功能许可客户向其 SoC 添加定制加速器芯片。
Lanier 表示,这是针对可能希望提高数据中央特定事情负载的超大规模客户,例如压缩和加密、网络中的 TCP 卸载处理或数据库中的键/值处理。这些加速器小芯片由 Veyron V2内核通过 Ventana 添加的自定义指令供应支持,这是全体 RISC-V 架构的一大卖点。
在这种情形下,自定义指令使软件能够调用加速器,这可以看作是英特尔处理器利用指令调用浮点单元 (FPU) 的办法的回响,当时个中一个是可选的单独的浮点单元 (FPU)。
△Ventana 可编程 DSA
总结来说,Ventana 的目标是让其客户设计利用这些 DSA 小芯片(无论是 FPGA 还是 ASIC)来供应更好的事情负载效率,而不仅仅是最大 SPECint 吞吐量。
安全性大幅提升
Veyron V2 的另一个特色是,支持全面的RAS,具有ECC能力、防数据中毒等。
如今,数据中央处理器还须要具有安全启动和身份验证能力。Veyron V2 设计也能够更好地抵御侧信道攻击,例如Spectre 和 Meltdown毛病,这些毛病可能导致做事器内存中的数据被盗取。
不过,Lanier强调,这并不虞味着Veyron V2芯片不可能被此类攻击,只是 V2 在设计时就理解了这些攻击的实行办法,可以在一定程度上进行预防。“数据中央客户为受影响的做事器运行软件补丁或缓解方法的本钱常日可能会降落 10% 乃至 20% 的性能。”
2024年第三季度投入生产
Ventana还将供应基于Veyron V2的192 核 1U 做事器参考设计,有四个128核的小芯片和12通道的DDR5-5600内存,小芯片上有UCI Express互连,还有一个I/O接口,可以将它们放在做事器CPU插槽内。
据先容,Veyron V2将于2024年第三季度投入生产,届时用于互连小芯片的UCIe 1.1 PHY有望上市。
编辑:芯智讯-浪客剑
资料来源:
https://www.theregister.com/2023/11/07/ventana_riscv_server/
https://www.servethehome.com/ventana-veyron-v2-risc-v-cpu-launched-for-the-dsa-future/
https://www.nextplatform.com/2023/11/07/ventana-launches-veyron-v2-risc-v-into-the-datacenter/