前沿｜深度进修芯片研究新趋势：以存储器为处理的核心_架构_存储器

文章目录 [+]

作者：Nicole Hemsoth

机器之心编译

前沿｜深度进修芯片研究新趋势：以存储器为处理的核心_架构_存储器前沿｜深度进修芯片研究新趋势：以存储器为处理的核心_架构_存储器互联网

参与：赵华龙、蒋思源

（图片来自网络侵删）

在过去的两年里，为了知足机器学习的须要，特殊是深度神经网络的须要，涌现了一股对峙异体系架构研究的热潮。
我们已经在《The Next Platform》中宣布了无论是用于演习侧还是推理侧的许多架构可选方案，并且正是由于所做的这些，我们开始把稳到一个有趣的趋势。
一些面向机器学习市场定制 ASIC 的公司彷佛都在沿着同一个思路进行开拓——以存储器作为处理的核心。

存储器内处理（PIM）架构实在不是什么新东西，但是由于存储器内相对大略的逻辑单元很好地迎合了神经网络的演习需求（特殊是卷积网络），以是存储器正变成未来下一个平台。
我们已经先容过了很多公司的深度学习芯片，比如 Nervana Systems（2016 年被英特尔收购）和 Wave Computing，以及其它有望碾压 AlexNet 等 benchmark 的新架构，存储器都是其性能与效率的关键驱出发分。

本日，我们还要为这种存储器驱动的深度学习体系架构家族再先容一个新成员。
那便是 Neurostream，它由博洛尼亚大学提出，在某些方面与 Nervana、Wave、以及其它采取下一代存储器（比如 Hybrid Memory Cube (HMC) 和 High Bandwidth Memory (HBM)）的深度学习架构很相似。
而且该架构还供应了一种新思路，可以进一步深入理解我们刚才提到的那些公司是如何设计深度学习架构的。
在过去的先容里，我们已经从 Nervana、Wave 等发布的架构中提取出了一些设计细节，而这次架构的设计团队为我们带来了有关为什么存储器驱动型设备将会成为未来深度学习定制硬件主流更深入的见地。

「虽然卷积神经网络是打算密集型算法，但它们的可扩展性和能量效率被主存储器极大地限定住了，而这些网络中的参数和通道都比较大，以是都须要存储在主存中。
鉴于上述缘故原由，仅仅改进卷积网络加速器的性能和效率而不考虑主存储器的瓶颈将会是一个缺点的设计决策。
」

Neurostream 把它的存储器内处理方法用在扩展卷积神经网络上。
该设计采取了一种 Hybrid Memory Cube 的变种，他们称之为「Smart Memory Cubes」。
「Smart Memory Cubes」增强了被称为 NeuroCluster 的多核 PIM 平台。
NeuroCluster 采取了基于 NeuroStream 浮点协处理器（面向卷积密集型打算）和通用途理器 RISC-V 的模块化设计。
他们同样也提到了一种易于 DRAM 阵列化的机制及其可扩展的编程环境。
该架构最吸引人的地方在于它用仅占晶片面积 8% 的 HMC 得到了 240GFLOPS 的性能，而其总功耗仅为 2.5 瓦。

「该平台能够以较小的系统功耗使得卷积神经网络打算任务能完备下放到存储器组中。
这意味着主 SoC 中的打算逻辑能够被开释出来干其它事。
而且，相对付一个基本 HMC 系统，其额外的开销险些可以忽略不计。
」

该设计团队正在大肆宣扬其 Neurostream 架构的每瓦特性能指数。
「在单个三维堆叠封装中我们达到了每瓦特 22.5GFLOPS（每秒浮点打算数 22.5G 次）的打算能量效率，这是当前能买到最好 GPU 性能的 5 倍以上。
」他们同样提到「少量的系统级功耗升高和可以忽略不计的面积增长使得该 PIM 系统成为一种既节约本钱又高效利用能量的办理方案，通过一个连接 4 个 SMC 的网络，其可以轻松扩展到 955 GFLOPS。
」他们用来比拟的 GPU 是 Nvidia Tesla K40，该 GPU 在 235 瓦功率下可以达到 1092 GFLOPS 的处理速率。
「Neuro 阵列可以在 42.8 瓦达到 955GFLOPS，且超过了其对手 4.8 倍的能量利用效率，」该团队同时评论说，由于降落了对串行链路的需求，该架构还可以扩展至更多节点。

Neurostream 的创造者们期望通过进行一些面向运用的调优和降落算术打算精度的方法来使它的能效比拟得到进一步增长。
就像他们着重提到的，「降落打算精度有望使功耗降落达 70%。
」在他们的下一次改进里，他们将着重在硅片上实现带有四个 NeuroClusters 的架构，这将使它能够监控其自身是如何反向传播和演习的。

我们已经先容过了许多协处理器、ASIC、GPU、以及采取针对深度学习框架进行额外软件优化的 x86 处理器的性能和效率的 benchmark 比分。
只管我们对这些都半信半疑，尽我们可能地去比拟，但韶光终极会见告我们哪种体系架构会终极胜出。
这里想说的不在于 benchmark 比分，而在于体系构造本身。
Neuro 阵列就像 Nervana、Wave、以及其它方法一样，都把 HMC 和 HBM 用到了极致——利用有限的存储器内处理能力，结果已经差不多能很好地处理卷积神经网络的打算了。

不仅如此，对该类架构的更深入不雅观察，还能帮助我们更好地评估我们提到的机器学习芯片初创公司正在做的事。
我们期待经由初创公司和学术研究的共同努力，2017 年将开辟设计许多在深度学习框架领域内的存储器驱动型处理器。