新处理器采取台积电16nm工艺制造,内核面积不超过195平方毫米,内部采取环形总线设计,串联集成八个x86 CPU核心、16MB共享三级缓存、四通道DDR4-3200内存掌握器、PCIe 3.0掌握器(44条)、南桥和IO功能,是一颗完全的SoC。
最大亮点是AI协处理器“NCORE”,占用面积约34.4平方毫米(17.6%),软件映射为PCI设备,支持DNN深度神经网络创建与演习的加速,号称可供应多达20TB/s的内存带宽、每秒20万亿次AI操作的性能。
主频可以事情在2.5GHz,而且竟然支持AVX-512指令集,这可是AMD Zen 2架构都没有的。

CHA处理器内核图
CHA处理器模块简图
近日,Centaur公布了这颗处理器的诸多架构细节,但有趣的是并非自行公布,而是来自美国加州处理器技能威信机构、 著名芯片杂志《Microprocessor Report》发行商Linley Group,后者仔细研究了Centaur的处理器架构设计文档,并采访了干系设计师,给出了这份报告。
《Microprocessor Report》杂志主编Linley Gwennap对这颗全新设计的x86处理器不吝溢美之词:“Centaur高调重返x86市场,带来了改造的处理器设计,全体八个高性能CPU核心、一个定制深度学习加速器(DLA)。这是业界第一个集成DLA的做事器处理器设计。新的加速器NCore的神经网络性能乃至比最强大的至强还要好,而且不须要昂贵的外部GPU打算卡赞助。”
Linley Group透露,Centaur的全新x86微架构叫做“CNS”,设计目标是IPC要高于传统PC处理器,每时钟周期可解码4条x86指令,并行实行10个微操,首颗处理器暂命名“CHA”,个中AI协处理器INT8整数的峰值性能高达20TOPS(20万亿次操作每秒)。
CNS微架构图
NCore AI协处理器架构图
Linley Group基于威信的MLPerf性能测试来衡量x86处理器的AI性能,结果创造Centaur CHA处理器的AI推理性能,相称于23个天下级的Intel x86核心,而且后者必须是支持512位的VNNI矢量神经网络指令才行。——事实上,Intel现在还没有真正的32核心产品。
Centaur AI协处理器的架构设计类似VNNI指令的SIMD(单指令多数据)理念,但是在16MB专用内存、20TB/s带宽的支持下,每个时钟周期可以处理32768个数据位,而且将推理处理交给专门的AI协处理器后,x86核心就可以放心实行其他通用任务。
Centaur还为开拓者供应了新的算法,可充分利用Centaru AI协处理器无与伦比的超低推理延迟,并与x86 CPU核心密切合营。
在纽约州举办的ISC East大会上,Centaur还首次公开展示了CHA处理器,而且除了视频剖析、实时物体检测和分类等传统AI运用之外,还唯一秀了一把语义分割(像素级图像分类)、人体姿态估计(简笔画)等前沿运用,让人大开眼界。
目前,Centaur正在改进优化新平台的硬件性能、软件效率,而新处理器估量明年下半年正式投产。
Linley Group的详细报告可以下载
不同CPU架构的比拟
Centaur处理器测试中