IBM模拟AI芯片登Nature：能效提升14倍语音识别速度提升7倍_芯片_存储器

文章目录 [+]

编译 | 喷鼻香草

编辑 | 李水青

IBM模拟AI芯片登Nature：能效提升14倍语音识别速度提升7倍_芯片_存储器 IBM模拟AI芯片登Nature：能效提升14倍语音识别速度提升7倍_芯片_存储器科学

智东西8月24日，8月23日，IBM研究中央发布了一款新型仿照AI芯片，在语音识别和转录等自然措辞处理AI任务上，其能源效率较传统芯片提升约14倍，干系论文已刊发于国际顶刊Nature。

（图片来自网络侵删）

据先容，这款芯片的设计灵感来源于人脑，可以在14nm芯片上集成3500万PCM（相变存储器）。
IBM研发团队在此芯片上进行了语音识别和转录实验，在保障准确率的条件下，速率和能效均有很大提升。

一、利用PCM存储数据，仿照芯片办理AI技能高能耗问题

AI干系技能在飞速发展的同时，也面临着能源花费的问题。
为了提升能源效率，IBM来自天下各地实验室的研究职员共同研发了这款仿照AI芯片。
据称，在两个AI推理实验中，该芯片都像同类数字芯片一样可靠地实行任务，但其完成任务的速率更快，能耗更低。

IBM称，其研究职员一贯都在深耕仿照AI芯片领域。
2021年，其团队就发布了一款名为Fusion的仿照芯片，利用PCM设备的存储能力和物理属性，更高效地实现人工神经网络。

传统打算机基于冯·诺依曼构造——一种将程序指令存储器和数据存储器合并在一起的电脑设计观点构造，每次打算都将数据从DRAM（动态随机存取存储器）内存传输到CPU，导致事情速率受到实际限定，永久无法实现CPU的真正打算能力，这被称为“冯·诺依曼瓶颈”。

当每次打算将数据从DRAM内存传输到CPU时，传统打算机就会涌现瓶颈（图源：IBM官网）

利用PCM设备的物理特性，仿照芯片可以战胜冯·诺依曼瓶颈，在存储数据的同一位置实行打算。
由于没有数据移动，它可以在很短的韶光内实行任务，并且花费的能源更少。

仿照芯片通过在存储数据的地方实行打算来战胜瓶颈（图源：IBM官网）

例如，将64位数据从DRAM移动到CPU会花费1-2nJ（纳焦）能量，而在PCM设备上实行只需花费1-100fJ（飞焦），是前者的1万至200万分之一。
当扩展到数十亿次操作时，所节省的能源是巨大的。
此外，当设备不活动时，PCM不会花费电力，纵然断电，数据也将保留10年。

二、采取全新设计办法，14nm芯片可编码3500万个PCM

虽然IBM早在两年前便以研发出了仿照芯片，并考试测验将其用于提升AI打算性能，但Fusion芯片一次只能访问一个PCM设备，对速率和能效的提升并不显著。

IBM本次发布的这款芯片采取了新的设计办法，利用34个大型PCM阵列，结合了数模转换输入、仿照外围电路、模数转换输出和大规模并行二维网格路由。
每个14nm芯片上可编码3500万个PCM，在每权重对应2-PCMs的方案中，可容纳1700万个参数。
将这些芯片组合在一起，便能够像数字芯片一样有效地处理真实AI用例的实验。

IBM仿照AI芯片的显微照片（图源：论文插图）

上图中，图a显示了芯片的显微照片，突出显示了34个PCM阵列模块的2D网格，每个模块都有自己的512×2048 PCM交叉阵列。
PCM器件集成在14nm前端电路上方的后端布线中（图b），可通过电脉冲调度窄底电极上晶体相（高导电性）和非晶相（高电阻性）材料的相对体积来编码仿照电导状态。
对PCM器件进行编程时采取并行编程方案（图c），这样同一行中的所有512个权值都会同时更新。

该研发团队采取的方法是优化主导深度学习打算的MAC（乘积累加运算）。
通过读取电阻式NVM（非易失落性存储器）设备阵列的行，然后沿列网络电流，团队证明可以在存储器内实行MAC，无需在芯片的存储器和打算区域之间或跨芯片移动权重。

三、精确度不减，语音识别速率提升7倍、大模型运行能效提升14倍

为了验证芯片的有效性，该团队设计了两个实验对其进行测试。
他们从MLPerf中选择了两个神经网络模型，分别是语音唤醒和语音转文本模型。
MLPerf由斯坦福、哈佛等顶尖学术机构发起成立的，威信性最大、影响力最广的国际AI性能基准测试。

第一个实验环绕关键词语音检测展开。
该团队提出了一种卷积神经网络架构，并在包含12个关键字的谷歌语音命令数据集上进行演习。
团队采取了架构更大略的FC（全连接）网络构造，终极达到了86.14%的识别精度，且提交速率比MLPerf目前最佳情形快7倍。
该模型利用硬件感知演习在GPU上进行演习，然后支配在团队的仿照AI芯片上。

端到端语音唤醒任务干系图表（图源：论文插图）

第二个实验环绕语音转文本展开，规模更大。
团队利用5个仿照AI芯片组合在一起，运行RNN-T（循环神经网络转换器）模型，以逐个字母地转录语音内容。
该系统包含5个芯片上1.4亿个PCM设备的4500万个权重，能够采集人们说话的音频并以非常靠近数字硬件设置的精度进行转录。
该实验终极达到9.258%的单词缺点率，能量效率达6.704TOPS/W（万亿次操作每秒/瓦），比MLPerf目前最佳能效提高了14倍。

仿照AI芯片在RNN-T模型上表现出的性能干系图表（图源：论文插图）

与第一个实验不同，这个实验并不完备是端到真个，这意味着它确实须要一些片外数字打算。
IBM称，这里涉及的额外打算很少，如果在芯片上实现，终极的能效仍旧高于当今市场上的产品。

结语：仿照AI芯片能否成为下一个趋势

继2021年推出第一款仿照芯片Fusion后，IBM于近日发布了专攻AI的仿照芯片，速率、能效均比传统数字芯片大幅提升，准确率也保持高水准。

传统芯片受制于“冯·诺依曼瓶颈”，而仿照芯片可以冲破这一桎梏，为AI技能带来新的生命力。
未来，仿照芯片市场能否得到进一步发展，我们会持续关注。

来源：Nature、IBM官网