外媒对中国下一代百亿亿次超算的建议与架构猜想_神威_太湖

文章目录 [+]

NextPlatform 援引中国并行打算机工程与技能国家研究中央（NRCPC）的一份文件宣布说，中国的百亿亿次超级打算机提案之一包括扩展申威HPC架构以及申威多核稠浊CPU架构。

以下是NRCPC关于中国百亿亿次超算的建议以及架构猜想

外媒对中国下一代百亿亿次超算的建议与架构猜想_神威_太湖互联网

超级打算趋势：更多内核

作为百亿亿次打算机时期准备事情的一部分，NRCPC对近年来通用超级打算机的发展趋势进行了研究。

该组织创造，由于摩尔定律和登纳德缩放比例定律 (Dennard Scaling)的放慢，在不增加功耗的情形下提高超级打算机的性能变得非常困难，因此全体系统架构的繁芜性会呈指数级增长。

基于这些创造，领先的超级打算机在2008年至2019年的性能有所提高，这紧张是由于打算内核数增加了44倍。
为此，NRCPC认为，与其发明全新的东西，不如扩展现有的神威超级打算机架构和神威CPU设计。
特殊是拥有数千万核的超级打算机正在考虑中。

探索神威SW26010架构

2016年推出的最新神威太湖之光超级打算机利用了40960个国产多核神威SW26010处理器，采取稠浊架构。
该系统的Linpack性能(Rmax)为93,014.6 TFLOPS， (Rpeak)为125,436 TFLOPS。
当前的百亿亿美元级提案包括扩展SW26010 CPU和太湖之光系统的扩展，因此理解更多关于CPU架构的细节是故意义的。

SW26010处理器是基于自主研发的64位RISC架构，具有4个集群或核心组（CG）和一个协议处理单元（PPU）。
每个集群有一个MPE(management processing element)， MPE是一个超标量乱序核，具有256位向量引擎、32kb/32kb L1指令/数据缓存、256kb L2缓存。
它还集成了64个打算处理元素(CPE)，具有相同的256位向量引擎以及64 KB的快速本地数据和16 KB的指令存储。
CPE被组织成一个8x8阵列，并利用网状网络相互连接。
值得把稳的是，MPE和CPE通过基于目录的协议支持同等性共享，这减少了数据在核之间的移动，并支持不同核之间的细粒度交互，这对具有不规则数据共享访问权限的运用程序尤为主要。

每个CG都有其自己的DDR3内存掌握器，该掌握用具有自己的地址空间，该内存利用9个内存模块实现专有ECC实现，支持8GB内存。
CG通过类似于环形总线的片上网络（NoC）进行互连，并且处理器本身通过系统互连（SI）总线连接至系统的别的部分。
在神威太湖之光超级打算机中利用的CPU SW26010操作主频为 1.45GHz。
NRCPC没有透露它利用哪种工艺技能来制造SW26010，但是自从太湖之光在2016年中期首次涌如今环球500强名单中以来，可以合理地假设其CPU是利用台积电的28 nm制造工艺制造的。

假设太湖之光已满载且效率为100％，则这种处理器的性能约为3.168 TFLOPS（峰值），并且内存带宽约为136 GB / s。

SW26010实质上是一个具有260个内核的稠浊处理器，这些内核共享相同的微体系构造，但功能不同。
由于SW26010是可利用其256个CPE内核利用线程级并行性的单芯片，因此它被认为比配备了打算加速器（例如GPU或FPGA）的CPU效率更高，由于它不必增加内存负载串行（MPE）和并行（CPE）内核之间的事务。
与此同时，基于x86的当代超级打算机利用超过四个“大”核的cpu，这增加了一定的灵巧性。

NRCPC的E级超算办理方案及建议：扩展统统

从NRCPC的角度来看，可以同时扩展神威系统和神威CPU架构，以构建性能约为1 ExaFLOPS的超级打算机。

为了构建这样一个别系，NRCPC建议增强SW26010 CPU并增加处理器数量。
用于百亿亿次级打算机的新神威CPU将拥有8个CG集群，而不是4个。
CG架构将保持不变:一个MPE和64个CPE。
同时，CPE将支持512位向量指令(大概MPE也会支持，但文档中没有明确解释)。
根据NRCPC的估计，这种处理器将供应超过12 FP64 TFLOPS。
百亿亿次超级打算机也将使每个别系的CPU数量增加一倍以上，达到80000多个。

NRCPC表示，基于下一代神威CPU架构的百亿亿次神威超级打算机峰值性能约为1 FP64 ExaFLOPS(百亿亿次浮点运算)、2 FP32 ExaFLOPS以及4 FP16ExaFLOPS。
据该组织估计，百亿亿次神威系统的实际性能将达到700 PFLOPS旁边(也便是说，它的效率将达到70%旁边)，因此它将比“太湖之光”快7.5倍。
此外，这款超级打算机将供应约7倍高的内存带宽和约2倍高的网络带宽。

神威太湖之光超级打算机耗电15371千瓦。
比较之下，当前世界上最强大的机器——日本富士通的富岳（Fugaku）超级打算机花费了29,899千瓦，大约是它的两倍。
美国的Frontier超算估量将在今年晚些时候成为第一个供应1.5 ExaFLOPS运算性能的系统，估量花费约3万千瓦。
虽然NRCPC的研究给出了一些关于中国百亿亿级超级打算机预期性能的想法，但该文件短缺的一个东西是该系统的预期功耗。

该文承认，增强CPU架构将导致内部互连和缓存的紧张重新设计，这意味着功耗的增加。
此外，全体超级打算机将不得不重新设计，以利用额外的每CPU性能和CPU数量。
NRCPC说，它将在接下来的文件中办理其他超级打算机子系统的寻衅。

须要新的工艺技能

从工程角度来看，可以构建具有520核（8个MPE，512个CPE）的稠浊CPU。
同时，将内核数量增加一倍并增加其繁芜性，而哀求内部互连速率快两倍的512位向量单元将不可避免地导致晶体管数量的显著增加。

晶体管数量更加并不是一个不可战胜的寻衅。
终极，诸如AMD、Intel和Nvidia之类的公司知道如何为数据中央和超级打算机构建大型CPU和GPU。
但是，所有这些公司都可以利用领先的工艺技能和半导体生产举动步伐。
目前尚不清楚是否方向于让台积电或三星代工还是考虑在中芯国际代工，以制造其稠浊超级打算机CPU。

目前，中芯国际拥有两项FinFET制造技能：其14纳米节点以及用于廉价芯片的N + 1节点。
假设SW26010之前利用的是台积电的28 nm制程技能制造，那么将SMIC的14 nm工艺用于相称繁芜的CPU很有道理。
当然，中芯国际是否能够利用其14 nm节点（到目前为止仅用于移动SoC和其他相对较小的组件）是否能够大规模生产相称繁芜的芯片，并以精确的频率达到精确的良率还有待不雅观察。
还有一点是，中芯国际在美国商务部的“实体名单”中，是否会影响到芯片代工，目前还不得而知。