人工智能未来成长的关键——模拟芯片_数字_暗记

文章目录 [+]

AI运用程序的核心是乘法累加函数（MAC）或点积运算。
这须要两个数字，将它们相乘，并将结果添加到累加器。
数字从内存中提取并存储到内存中。
这些操作重复多次，占学习和推理所花费的绝大部分韶光和功率。

机器学习快速增长的一个缘故原由是GPU的可用性。
这些设备虽然最初用于图形处理，但具有大量MAC和高速存储器接口。
它们可以比通用CPU更快地实行必要的打算。
缺陷是GPU方向于利用浮点算法，这远远超出了AI算法的须要。
但是，大多数研究都因此利用了浮点数。

人工智能未来成长的关键——模拟芯片_数字_暗记通讯

业界正试图通过迁移到更适宜任务的定点数学或修正形式的浮点来减少摧残浪费蹂躏的韶光和功耗。
最初认为须要12位精度，但最新的发展正在推动8位打算。
一些研究正在进行单比特处理，这表明它只会将准确度降落一点。

最新的谷歌TPU，一种针对机器学习的芯片，包含65,536个8位MAC块，功耗非常大，芯片必须采打水冷却。
鉴于技能扩展正在放缓，我们不能指望增加集成到芯片上的MAC数量，除非进一步减少位数。

可以对传统的冯·诺依曼架构进行改进。
“微掌握器性能的不断提高以及图书馆和中间件的增加，以支持机器学习，有助于推理引擎阔别云端，更靠近网络边缘，”营销项目高等主管Rhonda Dirvin说道。
为了武器汽车和物联网业务。
“通过这种迁移，可以更好地利用声音识别，物体识别和电机康健振动监测等数据。
随着数据变得更有用，将网络更多数据。
网络数据意味着通过稠浊旗子暗记IC实现我们的仿照天下并将其转换为数字。
新的旗子暗记处理功能已经添加到当代MCU中，许可在基于Arm的MCU上以数字办法完成旗子暗记处理，例如，不须要为许多运用供应额外的DSP。

这须要更好的模数转换器（ADC）。
“将仿照传感器输入转换为数字旗子暗记须要ADC，”Microchip Technology稠浊旗子暗记和线性器件部高等技能职员工程师Youbok Lee说。
“然后利用利用数字机器学习块的AI算法处理该数字旗子暗记。
随着机器学习运用的遍及，将须要更节能的自适应稠浊旗子暗记仿照前端设备。
“

仿照帮助吗？已经证明，AI功能可以利用数量级更少的功率实行，并且能够办理比目前正在开拓的AI系统繁芜得多的问题。
最好的例子是哺乳动物的大脑。
纵然是最耗电的人脑，也只花费大约25W。
TPU的功耗可能在200W到300W之间。
虽然它包含64K处理单元，但人类大脑包含大约860亿个处理单元。
我们间隔可能的地方有很多个数量级。
虽然考试测验复制大脑可能不是空想的提高道路，但它确实表明，从长远来看，将所有鸡蛋放入数字篮子可能不是最有成效的。

业内有些人士赞许。
“由于其高功耗和形状尺寸，数字AI ASIC可能不是物联网边缘打算的空想办理方案，”Alchip的美国总经理Hiroyuki Nagashima说。
“稠浊旗子暗记机器学习，受人类大脑的启示，该当在未来的天下中发挥主要浸染。
我们是否能够构建一台能像人脑一样感知，打算和学习的机器，并且只花费几瓦的功率？这是一个相称大的寻衅，但科学家们该当朝着这个方向努力。
“

可以生产遵照数字架构但利用仿照电路的芯片。
东芝已经生产出一种利用相域仿照技能实行MAC操作的芯片。
它通过动态掌握振荡韶光和频率来利用振荡器电路的相位域。
他们声称，该技能可以集中处理传统上由各个数字电路处理的乘法，加法和存储器操作，利用具有相同面积的数字电路的八分之一功率。

在仿照和人工智能的背景下，每每会谈论几个问题。
它们以精度和可变性为中央。
仿照的一个问题是它们的精度有限，基本上由本底噪声定义。
数字电路没有这样的限定，但随着对精度的需求降落，它正在成为仿照电路能够供应的领域。

新的打算观点很主要。
“我们的想法是，这些东西可以在一个韶光步长内对完备连接的神经网络层进行多次累积，”IBM研究院紧张RSM的Geoffrey W. Burr阐明道。
“否则，在一系列处理器上须要花费一百万个时钟，你可以在仿照域中利用数据位置的根本物理。
在韶光和精力方面，它有足够严重的有趣方面，它可能会在某个地方。
“

这使可变性成为一个大问题。
如果仿照电路用于推理，结果可能不是确定性的，并且更可能受到热量，噪声或其他外部成分的影响，而不是数字推理引擎。

但仿照可以在这个领域有一些显著的上风。
当数字出错时，它可能会涌现灾害性缺点，而仿照能够更好地容忍缺点。
“ 神经网络很薄弱，”IBM研究中央主任Dario Gil在2018年设计自动化大会期间的一个小组中说道。
“我们一贯在研究相变存储器，我们已经制造出具有超过一百万个PCM元件的芯片，并证明您可以实现深度学习培训，与传统GPU比较，具有相似的精度水平，可实现500倍的改进，”Gil说。
“我们还有一个稠浊精密系统，以是它的一些可能是低精度但利用PCM矩阵阵列非常有效，但你也有一些高精度逻辑，能够微调并得到一些打算所需的任意精度。
”

我们看一下不久前IBM关于仿照AI的一篇博客文章，可以理解一下仿照AI推理的实现事理，文章指出通过利用基于相变存储器（Phase-Change Memory，简称PCM）的仿照芯片，机器学习可以加速一千倍。

人工智能或许能办理一些科学和行业最棘手的寻衅，但要实现人工智能，须要新一代的打算机系统。
IBM在博客中的一篇文章中指出，通过利用基于相变存储器（Phase-ChangeMemory，简称PCM）的仿照芯片，机器学习可以加速一千倍。

博客正文：

（来源：雷锋网编译）

相变存储器基于硫化物玻璃材料，这种材料在施加得当的电流时会将其相从晶态变为非晶态并可规复。
每相具有不同的电阻水平，在相位改变之前是稳定的。
两个电阻构成二进制的1或0。

PCM是非易失落性的，访问延迟与DRAM水平相称，他们都是存储级内存的代表。
英特尔与美光联合开拓的3D XPoint技能就基于PCM。

为了实现AI真正的潜力，在纽约州立大学和创始互助伙伴成员的支持下，IBM正在建立一个研究中央，以开拓新一代AI硬件，并期待扩展其纳米技能的联合研究事情。

IBM Research AI硬件中央互助伙伴涵盖半导体百口当链上的公司，包括IBM制造和研究领域的计策互助伙伴三星，互联办理方案公司Mellanox Technologies，供应仿真和原型设计办理方案软件平台供应商Synopsys，半导体设备公司Applied Materials和Tokyo Electron Limited（TEL）。

还与纽约州奥尔巴尼的纽约州立大学理工学院主理方互助，进行扩展的根本举动步伐支持和学术互助，并与临近的伦斯勒理工学院（RPI）打算创新中央（CCI）互助，开展人工智能和打算方面的学术互助。

新的处理硬件

IBM研究院的半导体和人工智能硬件副总裁Mukesh Khare表示，目前的机器学习限定可以通过利用新的处理硬件来冲破，例如：

数字AI核心和近似打算带仿照内核的内存打算采取优化材料的仿照核心

图1：IBM Research AI硬件中央制订的一个路线图，在未来十年内将AI打算性能效率提高1000倍，并供应数字AI核心和仿照AI核心管道。

Mukesh Khare提到将深度神经网络（DNN）映射到仿照交叉点阵列（仿照AI核心）。
它们在阵列交叉点处具有非易失落性存储器材料以存储权重。

DNN打算中的数值被加权以提高演习过程中决策的准确性。

这些可以直接用交叉点PCM阵列实现，无需主机做事器CPU干预，从而供应内存打算，无需数据搬移。
与英特尔XPoint SSD或DIMM等数字阵列形成比拟，这是一个仿照阵列。

PCM沿着非晶态和晶态之间的8级梯度记录突触权重。
每个步骤的电导或电阻可以用电脉冲改变。
这8级在DNN打算中供应8位精度。

图2：非易失落性存储器的交叉开关阵列可以通过在数据位置处实行打算来加速完备连接的神经网络的演习。

仿照存储器芯片内部的打算

在IBM的研究报告中指出：