AI 芯片成长的前世今生_芯片_人工智能

文章目录 [+]

来源 | 《微纳电子与智能制造》期刊

当代电子产品和设备在诸如通信、娱乐、安全和医疗保健等许多方面改进了我们的生活质量，这紧张是由于当代微电子技能的发展极大地改变了人们的日常事情和互动办法。
在过去几十年中，摩尔定律一贯是通过不断缩小芯片上的器件特色尺寸来提高打算能力，带来了电子产品诸如更高速率、更低本钱和更小功耗等上风。
Gordon Moore 最初的不雅观察是芯片中的晶体管数量大约每 2 年增加 1 倍，DavidHouse 进一步预测，由于更多更快的晶体管，芯片性能将每 18 个月翻一番。
虽然 Gordon Moore 的预测已经成功超过 50 年，但是本日的硅 CMOS 技能正在靠近其尺寸的基本物理极限，摩尔定律的延续性已经变得越来越具有寻衅性。

AI 芯片成长的前世今生_芯片_人工智能 AI 芯片成长的前世今生_芯片_人工智能科学

这意味着电子产品和设备的性能增益不再仅仅依赖于器件特色尺寸的缩小，人们有必要发明新的 IT 技能或新的打算事理，以知足运用对打算能力和低功耗等方面不断增长的需求，而人工智能的涌现为打破这种局限性供应了无限可能。
人工智能(artificial intelligence，AI)指由人制造出来的机器来呈现人类智能的技能，而人工智能芯片指能够运行人工智能技能和干系算法的半导体芯片。
本文将对人工智能芯片的研究进展及市场发展进行先容。

（图片来自网络侵删）

人工智能芯片的发展

据理解，人工智能(AI)技能的发展和运用在美国、中国和欧盟等天下紧张国家中已经成为国家计策，在国家的科技发展和家当竞争中霸占越来越主要的位置。
同时，AI技能在手写识别(例如MNIST数据集[1] )、人脸识别(例如 Facebook 的 DeepFace [2] )、语音识别(例如亚马逊的 Alexa [3] 、Apple 的 Siri [4] 、微软的Cortana [5])、机器人技能(例如机器人操作系统[6])、自动驾驶(例如Tartan Racing[7])，乃至智力游戏(例如 Google 的 AlphaGo [8] )和视频游戏(例如 Pac-mAnt [9] )等领域得到了广泛运用。
随着人工智能的发展，产生了更多的专业技能，比如神经网络模型、机器学习等，依赖履历学习而不是编程来做出决策。
反过来，机器学习为深度学习奠定了根本，深度学习涉及分层算法，以便更好地理解数据。

自 20 世纪 50 年代开始，人类对人工智能技能的探索从来就没有停滞过。
“人工智能”一词是由科学家约翰 · 麦卡锡(John McCarthy)、克劳德 · 喷鼻香农(Claude Shannon)和马文·明斯基(Marvin Minsky)于1956 年在达特茅斯会议上提出的，从此揭开人工智能研究的序幕。
1962 年 Rosenblatt 出版《神经动力学事理》及其 1957 年设计的仿照打算器，被视作深度神经网络模型的算法原型。
1969 年，Minsky 与 Papert出版《感知器》，指出单层神经网络演习出来的图像识别算法连对称图形都无法精确识别。

对付多层神经网络，由于人造神经元的运算极限严重受限于当时打算机的算力不敷，导致多层神经网络也无法被当时和后来的打算机的芯片运算效能实现，这造成了人工神经网络领域在 1970 年代的寒冬期间。

1982年，日本开始第五代打算机项目研究操持，同时美国也投入不少资源在第五代打算机的研发中，但终极依然无法办理图像和音讯识别的重大问题。
1985年，Hinton 与 Sejnowski 揭橥了之前被视为不可能实现的基于玻尔兹曼机的“多层神经网络”，1986 年,Rumelhart和Hinton揭橥“BP反向传播算法”，1989年，贝尔实验室成功利用反向传播算法，在多层神经网络开拓了一个手写邮编识别器。
同年，Mead 出版Analog VLSI and Neural Systems ，首创了基于仿生芯片的神经形态工程领域。

1993 年，Yann Le Cun 的团队利用 DSP 在一台 486 电脑上实现深度学习算法，其作为推理芯片，已可辨识手写的数字。
至此，通用芯片 CPU 的算力大幅提升，但仍无法知足多层神经网络的打算能力需求。
1994 年，Michael Gschwind 等利用 FPGAs 实现神经网络的算法运用，1998 年，YannLe Cun 和 Yoshua Bengio 揭橥了手写识别神经网络和反向传播优化干系的论文“Gradient-based learningapplied to document recognition”，首创了卷积神经网络时期的到来。

2006 年，Hinton 提出受限玻尔兹曼机模型与深度信念网络，成功地演习多层神经网络，办理了反向传播算法局部最佳解问题，并把多层类神经网络称作“深度学习”，首次证明了大规模深度神经网络学习的可能性。
2007 年，英伟达开拓出统一打算架构(CUDA)，研究职员透过 CUDA 可以轻松利用 C 措辞开拓 GPU ，使得 GPU 具有方便的编程环境可以直接编写程序。
2008 年，英伟达推出 Tegra芯片，作为最早的可用于人工智能领域的 GPU ，如今已成为英伟达最主要的 AI 芯片之一，紧张用于智能驾驶领域。
2009 年，Rajat Raina 和吴恩达联合揭橥利用 GPU 完成深度学习演习的论文“Large-scaleDeep Unsupervised Learning Using GraphicProcessors”。
2010 年，IBM 首次发布类脑芯片原型仿照大脑构造，该原型具有感知认知能力和大规模并行打算能力。

2012 年，Krizhevsky 与 Hinton 的团队采取 GPU 架构结合卷积神经网络(CNN)算法，在ImageNet 大赛中，将图像识别缺点率降到 18% ，并在NIPS 会议上揭橥图像识别论文“Image NetClassification with Deep Convolutional NeuralNetworks”。
这一打破性的成果，让人们第一次惊喜地看到神经网络的算力需求可被现行打算设备知足。
不过，这一成果也有它的美中不敷：他们利用的GPU 架构芯片并非针对神经网络架构设计，个中包含许多运行神经网络时不须要的架构设计，因此效率提升有限。
就在同一年，Google Brain 用 1.6 万个GPU 核的并行打算平台演习 DNN 模型，在语音和图像识别等领域得到巨大成功，2013 年 GPU 开始广泛运用于人工智能领域，高通公司发布 Zeroth。
2014年，中国科学研究院的陈天石博士(寒武纪创办人)团队揭橥以 DianNao [10] 为名的人工智能专用加速芯片系列论文( 包含 DaDianNao [11] 、PuDianNao [12] 、ShiDianNao [13] 、Cambricon-X)，开启人工智能加速专用芯片(ASIC)的研究领域。
也在同年，英伟达发布首个为深度学习设计的 GPU 架构 Pascal，IBM 发布第二代 TrueNorth。

2015 年，Jason Cong 在当年的国际FPGA大会上，揭橥1篇FPGA加速DNN算法的论文“Optimizing FPGA- based Accelerator Design for Deep Convolutional Neural Networks”，使得 FPGAs 迅速大火。
很快地，2016 年，Google 揭橥 TensorFlow 框架设计的 TPU 芯片，而同年，采取 TPU 架构的AlphaGo 涌现，并击败人类天下冠军棋士李世石。
还是在同年，寒武纪研发出 DIANNAO，FPGA 芯片在云打算平台得到广泛运用。
仅仅在 2017 年，谷歌TPU 2.0发布，加强了演习效能[14];英伟达发布Volta架构，推进GPU的效能大幅提升;华为麒麟970成为首个手机 AI 芯片;清华大学魏少军教授团队开拓出Thinker 原型，并随后推出在算力和能效方面具有国际水平的系列 Thinker 人工智能芯片。

人工智能芯片的分类

2.1 传统CPU困局

自20个世纪60年代早期开始，CPU(中心处理器)开始涌现并利用在打算机工业中。
现如今，虽然CPU 在设计和实现上都发生了巨大变革，但是基于冯 · 诺依曼架构的 CPU 基本事情事理却一贯没有发生很大变革。
如图 1 所示，冯 · 诺依曼架构分为中心处理单元(CPU)和存储器，CPU紧张由掌握器和运算器两大部件组成[15]。
在事情时，CPU 每实行一条指令都须要从存储器中读取数据，根据指令对数据进行相应的操作，因此CPU不仅卖力数据运算，而且须要实行存储读取、指令剖析、分支跳转等命令。
同时可以通过提升单位韶光内实行指令的条数，即主频，来提升打算速率。
但在人工智能深度学习领域中程序指令相对较少，但对大数据的打算需求很大，须要进行海量的数据处理。
当用 CPU 实行 AI 算法时，CPU 将花费大量的韶光在数据/指令的读取剖析上，在一定的功耗条件下，不能够通过无限制的加快CPU 频率和内存带宽来达到指令实行速率无限制的提升。
因此在这种环境下，传统 CPU 构造缺陷明显，在人工智能芯片领域中的算力瓶颈问题很难办理。

2.2 人工智能芯片中的后CPU时期

基于 CPU 的算力问题，近年来人工智能芯片领域的科学家们进行了富有成果的广泛研究，紧张集中在 AI 芯片目前的两种发展方向。
一个方向是连续延续经典的冯 · 诺依曼打算架构，以加速打算能力为发展目标，紧张分为并行加速打算的GPU(图形处理单元)、半定制化的 FPGA(现场可编程门阵列)、全定制化的 ASIC(专用集成电路)。
另一个方向便是颠覆传统的冯 · 诺依曼打算架构，采取基于类脑神经构造的神经拟态芯片来办理算力问题。
下面将对这两个方向的人工智能芯片特点进行详细描述。

2.2.1 按架构分类

(1)图形处理单元(graphics processing unit ，GPU)。
GPU 是相对较早的加速打算处理器，具有速率快、芯片编程灵巧大略等特点。
由于传统CPU 的打算指令遵照串行实行办法，不能发挥出芯片的全部潜力，而 GPU 具有高并行构造，在处理图形数据和繁芜算法方面拥有比 CPU 更高的效率。
在构造上，CPU 紧张由掌握器和寄存器组成，而 GPU 则拥有更多的逻辑运算单元(arithmetic logic unit，ALU)用于数据处理，这样的构造更适宜对密集型数据进行并行处理，程序在 GPU 系统上的运行速率相较于单核 CPU 每每提升几十倍乃至上千倍。
同时，GPU拥有了更加强大的浮点运算能力，可以缓解深度学习算法的演习难题，开释人工智能的潜能。
但是GPU 也有一定的局限性。
深度学习算法分为演习和推断两部分，GPU 平台在算法演习上非常高效。
但在推断中对付单项输入进行处理的时候，并行打算的上风不能完备发挥出来。

(2)现场可编程门阵列(field programmable gatearray ，FPGA )。
FPGA 是在 PAL 、GAL 、CPLD 等可编程器件根本上进一步发展的产物。
其基本事理是在FPGA 芯片内集成大量的基本门电路以及存储器，用户可以通过更新FPGA配置文件(即烧入)来定义这些门电路以及存储器之间的连线。
这种烧入不是一次性的，因此，它既办理了定制电路灵巧性的不敷，又战胜了原有可编程器件门电路数有限的缺陷。
与GPU 不同，FPGA 同时拥有进行数据并行和任务并行打算的能力，适用于以硬件流水线办法处理一条数据，且整数运算性能更高，因此常用于深度学习算法中的推断阶段。
不过 FPGA 通过硬件的配置实现软件算法，因此在实现繁芜算法方面有一定的难度。

将FPGA和CPU比拟可以创造两个特点，一是FPGA没有内存和掌握所带来的存储和读取部分，速率更快，二是FPGA没有读取指令操作，以是功耗更低。
劣势是价格比较高，编程繁芜，整体运算能力不是很高。
功耗方面，从体系构造而言，FPGA 也具有天生的上风。
传统的冯氏构造中，实行单元(如CPU核)实行任意指令，都须要有指令存储器、译码器、各种指令的运算器及分支跳转处理逻辑参与运行，而FPGA每个逻辑单元的功能在重编程(即烧入)时就已经确定，不须要指令，无需共享内存，从而可以极大地降落单位实行的功耗，提高整体的能耗比。
FPGA最值得把稳的例子可能是 CNP [16] ，它进一步改进并重命名为 NeuFlow [17] ，后来改编为 nn-X [18]。
这些设计可以实现 10~100 KM/s 操作(GOPS)，功率仅为10W以下。

(3)专用集成电路(application-specific integratedcircuit，ASIC)。
目前以深度学习为代表的人工智能打算需求，紧张采取GPU、FPGA等已有的适宜并行打算的通用芯片来实现加速。
在家当运用没有大规模兴起之时，利用这类 GPU 、FPGA 已有的通用芯片可以避免专门研发定制芯片( ASIC )的高投入和高风险。
但是，由于这类通用芯片设计初衷并非专门针对深度学习，因而天然存在性能、功耗等方面的局限性。
随着人工智能运用规模的扩大，这类问题日益突显。

GPU 作为图像处理器，设计初衷是为了应对图像处理中的大规模并行打算。
因此，在运用于深度学习算法时无法充分发挥并行打算上风。
深度学习包含演习和推断两个打算环节，GPU 在深度学习算法演习上非常高效，但对付单一输入进行推断的场合，并行度的上风不能完备发挥。
其次，GPU采取SIMT打算模式，硬件构造相对固定，无法灵巧配置硬件构造。
此外，运行深度学习算法能效低于FPGA。

虽然 FPGA 倍受看好，但其毕竟不是专门为了适用深度学习算法而研发，实际运用中为了实现可重构特性，FPGA 内部有大量极细粒度的基本单元，但是每个单元的打算能力都远低于 CPU 和 GPU 中的ALU 模块;其次，为实现可重构特性，FPGA 内部大量资源被用于可配置的片上路由与连线，因此打算资源占比相对较低;再者，速率和功耗相对专用定制芯片(ASIC)仍旧存在不小差距;而且FPGA价格较为昂贵，在规模放量的情形下单块FPGA的本钱要远高于专用定制芯片。

因此，随着人工智能算法和运用技能的日益发展，以及人工智能专用芯片ASIC家当环境的逐渐成熟，全定制化人工智能 ASIC 也逐步表示出自身的上风。
ASIC是专用定制芯片，定制的特性有助于提高ASIC 的性能功耗比，缺陷是电路设计须要定制，相对开拓周期长，功能难以扩展。
但在功耗、可靠性、集成度等方面都有上风，尤其在哀求高性能、低功耗的移动运用端表示明显。
比如谷歌的 TPU、寒武纪的 GPU ，地平线的 BPU 都属于 ASIC 芯片。

(4)神经拟态芯片(类脑芯片)。
在人工智能芯片中，传统的冯·诺依曼架构存在着“冯·诺依曼瓶颈”，它降落了系统的整体效率和性能[19]。
为了从根本上战胜这个问题，神经形态打算近年来已成为基于冯 · 诺依曼系统的这些传统打算架构的最有吸引力的替代方案。
术语“神经形态打算”首先由Mead[20] 在 1990 年提出，它是一种受大脑认知功能启示的新打算范式。
与传统的 CPU / GPU 不同，生物脑(例如哺乳动物的大脑)能够以高效率和低功耗在小区域中并行处理大量信息。
因此，神经形态打算的终极目标是开拓神经形态硬件加速器，仿照高效生物信息处理，以弥合网络和真实大脑之间的效率差距[21] ，这被认为是下一代人工智能的紧张驱动力。

神经拟态芯片不采取经典的冯 · 诺依曼架构，而是基于神经形态架构设计，是仿照生物神经网络的打算机制，如果将神经元和突触权重视为大脑的“处理器”和“影象”，它们会分布在全体神经皮层[22]。
神经拟态打算从构造层面去逼近大脑，其研究事情可分为两个层次，一是神经网络层面，与之相应的是神经拟态架构和处理器，以 IBM Truenorth 为代表，这种芯片把定制化的数字处理内核当作神经元，把内存作为突触。

其逻辑构造与传统冯·诺依曼构造不同:内存、CPU和通信部件完备集成在一起，因此信息的处理在本地进行，战胜了传统打算机内存与CPU 之间的速率瓶颈问题。
同时神经元之间可以方便快捷地相互沟通，只要吸收到其他神经元发过来的脉冲(动作电位)，这些神经元就会同时做动作;二是神经元与神经突触层面，与之相应的是元器件层面的创新。
如 IBM 苏黎世研究中央宣告制造出世界上首个人造纳米尺度的随机相变神经元，可实现高速无监督学习。

当前，最前辈的神经拟态芯片仍旧阔别人类大脑的规模(1010个神经元，每个神经元有103~104个突触)，至多达到104 倍，如表1所示。
为了达到在人脑中规模，应将多个神经拟态芯片集成在电路板或背板上，以构成超大规模打算系统。
神经拟态芯片的设计目的不再仅仅局限于加速深度学习算法，而是在芯片基本构造乃至器件层面上改变设计，希望能够开拓出新的类脑打算机体系构造，比如采取忆阻器和 ReRAM 等新器件来提高存储密度。
这类芯片技能尚未完备成熟，离大规模运用还有很长的间隔，但是长期来看类脑芯片有可能会带来打算机体系构造的革命。

2.2.2 按功能分类

根据机器学习算法步骤，可分为演习(training)和推断( inference )两个环节。
演习环节常日须要通过大量的数据输入，演习出一个繁芜的深度神经网络模型。
演习过程由于涉及海量的演习数据和繁芜的深度神经网络构造，运算量巨大，须要弘大的打算规模，对付处理器的打算能力、精度、可扩展性等性能哀求很高。
目前市场上常日利用英伟达的 GPU 集群来完成，Google 的TPU2.0/3.0 也支持演习环节的深度网络加速。

推断环节是指利用演习好的模型，利用新的数据去“推断”出各种结论。
这个环节的打算量相对演习环节少很多，但仍旧会涉及到大量的矩阵运算。
在推断环节中，除了利用 CPU 或 GPU 进走运算外，FPGA 以及 ASIC 均能发挥重大浸染。
表 2 是 4 种技能架构的芯片在人工智能系统开拓上的比拟。

2.2.3 按运用处景分类

紧张分为用于做事器端(云端)和用于移动端( 终端 )两大类。

做事器端：在深度学习的演习阶段，由于数据量及运算量巨大，单一处理器险些不可能独立完成 1 个模型的演习过程，因此，卖力 AI 算法的芯片采取的是高性能打算的技能路线，一方面要支持尽可能多的网络构造以担保算法的精确率和泛化能力;另一方面必须支持浮点数运算;而且为了能够提升性能必须支持阵列式构造(即可以把多块芯片组成一个打算阵列以加速运算)。
在推断阶段，由于演习出来的深度神经网络模型仍非常繁芜，推断过程仍旧属于打算密集型和存储密集型，可以选择支配在做事器端。

移动端( 手机、智能家居、无人车等 ):移动端 AI芯片在设计思路上与做事器端 AI 芯片有着实质的差异。
首先，必须担保很高的打算能效;其次，在高等赞助驾驶 ADAS 等设备对实时性哀求很高的场合，推断过程必须在设备本身完成，因此哀求移动端设备具备足够的推断能力。
而某些场合还会有低功耗、低延迟、低本钱的哀求，从而导致移动真个 AI 芯片多种多样。

人工智能芯片研究现状

3.1 研究背景

人工智能芯片的核心为神经网络算法的实现。
深度神经网络(DNN)已经在自然措辞处理、机器视觉、语音识别、医学影像剖析等浩瀚人工智能领域取得了重大打破[28-29]。
深度学习紧张分为传统卷积神经网络( CNN )和递归神经网络( RNN )，其依赖于大数据集的反复演习和大量浮点运算推理运算，这对打算机算力哀求较高，演习韶光长，功耗极大。
以Alpha Go 为例，其基于 1 920 个中心处理单元和 280个图形处理单元，功耗为 1 MW ，这险些是人脑能耗(~20 W)的5万倍。
近年来，人工智能被视为有极大的潜力运用于物联网和边缘打算领域中，因此须要具备高能效、快速预测，在线学习的能力，以避免向后端或做事器发送大量的数据[30-32]。

人工智能算法、架构、电路、器件等各个层面得到了很大的改进和优化，以减少推理的能量花费，同时保持分类精度等性能指标[30，32-34]。
通过定制 ASIC 设计实现节能推理硬件加速器的事情已经实现了相称高的能效(1 TFlops/W)，但基于反向传播的深度学习算法须要频繁地从远程传播偏差旗子暗记，因此很难实现有效的在线学习。
由于能量效率低下和缺少有效的在线学习方法，以 CNN 和 RNN 为代表的许多深度学习算法不适宜以事宜驱动和对能效哀求极高的新兴人工智能运用，例如物联网智能传感器和边缘打算等[31-32，35] 。

在此背景下，人工智能领域科学家提出脉冲神经网络(SNN)，其被誉为第三代人工神经网络。

SNN 在神经元模型之间利用时序脉冲序列来表示、传输和处理信息，来担保了更快的在线学习和更高的能量效率。
比较传统的人工神经网络(CNN和RNN)，SNN 具备了更多独特的仿脑特性，包括信息的脉冲表示、事宜驱动的信息处理和基于脉冲的局部学习规则等，更加靠近于生物神经网络中的学习和影象机制。
因此，由于脉冲神经网络其快速的在线学习、极高的能量效率、与人脑的高度相似性，近年来是人工智能科学领域极具科学意义的研究课题[36-37] 。

3.2 研究现状

近年来，天下上著名的学术研究机构和国际半导体公司都在积极研究和开拓基于脉冲的神经拟态电路[38-45]。
如表 3 所示，基于 SNN 的神经拟态打算硬件比基于传统 DNN 的硬件加速用具有更高的能量效率。
大多数最前辈的神经拟态打算芯片[39-41 ，44]都是基于成熟的 CMOS 硅技能对 SNN 进行 ASIC 设计，通过 SRAM 等存储器仿照实现人工突触，并利用关键的数字或仿照电路仿生实现人工神经元。
个中最具有代表性的是 IBM 公司研发的基于 CMOS 多核架构 TrueNorth 芯片[40] ，当仿照 100 万个神经元和2亿5000万个突触时，该芯片仅花费70mW的功耗，每个突触事宜仅花费 26 pJ 的极高能量效率。
然而，为了模拟生物突触和神经元的类脑特性，电子突触和神经元须要高度繁芜的 CMOS 电路来实现所需的人工突触和神经元的功能，如图 2 所示。

以 IBM 的 TrueNorth 芯片为例，它包含 54 亿个晶体管，在 28nm 工艺下霸占 4.3 cm2 的面积。
因此，这一类基于脉冲的神经拟态 CMOS 硬件电路利用大量的晶体管，并导致耗费非常大的芯片面积。
加之，现有的大多数神经拟态芯片[39-41 ，44] 由于其打算单元与存储单元在局部依然是分离的，这在用于神经元的 CMOS 逻辑电路和用于突触的 SRAM 电路之间依然存在局部的存储壁垒问题和能量效率问题，以是实际上还不是真正意义上的非冯 · 诺依曼体系构造。
不过最新的具有三维堆叠能力的非易失落性存储器(NVM)技能或存内打算技能(in-memorycomputing )有望办理这一问题。

另一项由 IBM 开拓的基于新型 NVM 技能的脉冲神经网络功能芯片[42] 证明了在非冯 · 诺依曼体系构造中利用相变存储器(PCRAM)这一创新的 NVM技能能够实现极低的能耗(仅为 0.9 pJ/bit)。
由霸占在交叉点的相变存储电阻组成了十字交叉整列构造，连同 CMOS 仿照电路一起实现脉冲时序依赖可塑性(STDP)学习规则的突触可塑性功能和带泄露积分放电(LIF)的神经元功能，如图 3 所示。
但是，由于预测精度的问题，该芯片只能实行大略的运用任务，完成基本模式的遐想学习。
IBM 的基于脉冲的神经拟态芯片反响了在人工神经元和突触，以及新兴的 NMV 技能的研究领域里最新的科研进展。

在借鉴国外研究事情的同时，我国也大力发展基于脉冲的神经拟态芯片研究。
清华大学团队提出一款基于 CMOS 技能的多核架构类脑芯片天机一号[44] ，实现了支持 LIF 的人工神经元功能。
北京大学团队提出了一种基于忆阻器阵列的神经拟态芯片[45] ，实现了简化的 LIF 功能和大略的赫伯学习机制。
忆阻器是一种新型的 NVM 器件，具有独特的仿照特性和可扩展性，并且由于其出色的能耗效率和器件特性，可以进一步提高神经拟态芯片的集成规模和整体效能[46-52] 。

至今基于脉冲的神经拟态芯片的紧张研究方法是通过对生物神经科学中已创造的生物行为特色进行直接仿照和仿生实现，包括算法建模、电路创新、新型器件技能等各个层面的研究和探索。
虽然基于神经拟态打算算法的人工智能芯片技能近年来已得到很大的发展和进步，但是依然难以实现所有的已知生物学习机制，仅通过对 SNN 模型的优化来达到近似或模拟一些生物征象从而实现一些大略的学习功能，比如路径方案和手写识别。
这些简化的类脑模型包括基于脉冲时序依赖的更新规则的突触模型和基于确定的线性积分放电动态的神经元模型[40-41] 。

人工智能芯片家当现状

4.1 家当现状评述

AI 芯片是芯片家当和人工智能家当整合的关键，特殊是 AI 系统芯片。
根据 Gartner 的预测数据，未来 5 年内环球人工智能芯片市场规模将呈飙升趋势，自 2018 年的 42.7 亿美元，升高至 343 亿美元，增长已超过7倍，可见AI芯片市场有较大增长空间，如图4所示。

对付中国 AI 芯片市场，根据中国信通院的数据报告，中国的人工智能市场规模估量在 2018 年超过300 亿公民币，而 2019 年后将超过 500 亿公民币。
市场年度增长率，将从 2017 年的 52.8%上升至 2018 年的 56.3% ，随后逐年低落，在 2020 年降至 42.0%。
个中，2017 年芯片发卖额占人工智能市场规模的 22% ，约47.7亿公民币，如图5所示。

现今，中国已有超过 20 家以上的新创 AI 芯片设计企业，融资总额超过 30 亿美元。
AI 芯片行业生命周期正处于稚子期，市场增长快，至 2022 年将从2018 年的 42.7 亿美元，发展至 343 亿美元，但芯片企业与客户的互助模式仍在探索中。
为了生存，行业逐渐涌现高下游整合的趋势。
云端(含边缘端)做事器、聪慧型手机和物联网终端设备等 3 个场景，是目前 AI 芯片企业的紧张落地市场，少数企业则是面向未来的自动驾驶汽车市场。
这些市场都具有千万量级出货量或百亿美元发卖额等特色。

然而，中国长期面临集成电路的入口额大于出口额的情形，根据海关总署的统计，如图 6 所示，2018 年入口总额正式打破 3 000 亿美元，约达 3 121 亿美元，同比 2017 年增长了 19.8%。
相较之下，集成电路的出口总额在 2018 年时仅 846 亿美元，尚不到入口额的1/3 ，而同年原油入口额约为 2 400 亿美元，由此可见，中国极度依赖于国外芯片制造商。
目前海内芯片制造技能尚待提高，但由于半导体的分工模式相称成熟，海内芯片设计企业并不须要担心芯片生产问题。

4.2 AI 芯片家当链

AI 芯片家当链紧张分成设计—制造/封测—系统。

（1）上游：紧张是芯片设计，按商业模式，可再细分成 3 种:IP 设计、芯片设计代工和芯片设计。
IP设计即设计芯片用的 IP 核(IP core)。

(2)中游:包含两大类，分别是晶圆制造和封装测试，晶圆不仅是在封装时测试，制造后也会有一次测试，封装后再有一次。

(3)下贱：分成发卖和系统集成(systemintegration)企业，个中供应软硬件集成办理方案的企业会被归属在系统集成商中，例如人工智能办理方案商。

4.3 AI芯片商业模式

按半导体上游与中游的集成与否，市场分成两种商业模式。

(1)垂直集成模式:又称 IDM，归属于该模式的企业业务同时包含设计和制造/封测。
IDM 模式的代表企业是英特尔和三星。

(2)垂直分工模式:采纳分工模式的企业仅只专营一项业务，比如英伟达和华为海思仅有芯片设计，没有制造业务，称作Fabless;而台积电和中芯国际仅代工制造，不涉及芯片设计，称作Foundry。

4.4 AI芯片设计家当模式

芯片设计的家当模式分为 IP 设计、芯片设计代工和芯片设计3种。

(1)IP 设计：IP 设计相较于芯片设计是在家当链的更顶层，以IP核授权收费为主。
传统的IP核授权企业以安谋(Arm)为代表，新创的 AI 芯片企业虽然也可设计出新型 IP 核，但因授权模式不易以规模效应创造出可不雅观的收入，新创企业一样平常不以此作为紧张盈利模式。
其余还有供应自动化设计(EDA tool)和芯片设计验证工具的 Cadence 和 Synopsys ，也在积极支配人工智能专用芯片领域。

(2)芯片设计代工：芯片设计代工和制造业的代工一样，供应设计代工做事的企业，并不能在产品上贴上自己的标签，也不能对别传播宣传该产品由自己设计。
芯原科技已经从事干系做事多年，也和恩智浦( NXP )有互助关系。

(3)芯片设计：大部分的人工智能新创企业因此芯片设计为主，但在这个领域中存在传统强敌，如英伟达、英特尔、赛灵思( Xilinx )和恩智浦，因而目前只有少数新创 AI 芯片设计企业会进入传统芯片企业的产品领域，例如，寒武纪与英伟达竞争做事器芯片市场，地平线与英伟达及恩智浦竞争自动驾驶芯片市场，别的企业则是在物联网场景上布局，像是供应语音辨识芯片的云知声，供应人脸辨识芯片的中星微，以及供应边缘打算芯片的耐能科技。

半导体的垂直分工模式虽有助于纯芯片设计企业的生存，不过单一芯片难以单独实现繁芜功能，于是有些企业开始供应芯片集成做事，集成后的产品称作系统或 IC(integrated circuit)模块，在人工智能领域则称为 AI 系统或 AI 模块。
一样平常而言，人工智能企业会同时供应算法和芯片的集成做事，该类企业常日被称为“人工智能方案办理商”，或称AI一站式做事(AI Turnkey)。

4.5 AI 芯片产品类型

根据集成的产品类型可再分成两类，即硬件集成和软件集成。
(1)硬件集成:将不同功能的芯片集成于同一块电路板(PCB)上，即被称为硬件集成，个中会包含核心处理器、协处理器(加速芯片)、存储器和其他零件。
硬件集成低级的产品是板上系统(system onboard )，但终极目标是将多个芯片集成在一块芯片上形成系统芯片，或称片上系统(system on chip)，如图7所示。

(2)软件集成:根据集成硬件的需求或纯粹软件集成的需求，软体工程师将不同软件(software)和固件( firmware )集成起来安装到板上系统或片上系统中。
因 AI 芯片设计的难度并没有过往的 CPU 高，为增加行业竞争上风，人工智能企业除本身供应的系统集成做事外，也开始往芯片设计方向整合。
与此同时，AI 芯片企业为了加速产品落地，减少探求客户的难度，会同时兼任芯片企业和集成商这两种身份。
于是，目前行业呈现人工智能与芯片家当双向整合的情形。
整合后的 AI 系统集成商可以将更高性能、更低价格、更低功耗的系统芯片( 片上系统)方案供应给客户。

4.6 存在的问题

因系统芯片开拓技能繁芜，人才缺口成为紧张难题。
系统芯片设计的关键技能包含但不限于以下 6 项:(1)总线架构技能;(2)IP 核可复用技能;(3)软硬件协同设计技能;(4)时序剖析技能;(5)验证技能;(6)可测性设计技能。
以上关键技能皆涉及跨学科知识，且开拓流程繁芜，工序可多达 40个，每个工序都须要一位专业工程师卖力实行事情，开拓过程须要前后反复多次验证设计，避免流片失落败。

系统芯片(SoC)设计与 AI 加速芯片(ASIC)设计比较，前者的设计难度更高，两者之间的差异紧张表现在以下两点:第一，系统芯片设计须要更加理解全体系统的运作，由此可更合理的定义芯片架构，使得软硬件集成达到系统最佳事情状态。
第二，系统芯片设计因此 IP 核复用为根本，基于 IP 模块的大规模集成电路设计是系统芯片实现的关键。
综上所述，系统芯片设计团队或以系统芯片为目标创立的 AI芯片企业，首先面临的是人才技能储备问题，再来才是后续问题。

4.7 AI芯片落地情形剖析

现如今，云端与终端皆有 AI 芯片落地。
个中做事器、手机、智能家居、自动驾驶是紧张落地场景。
由于 AI 芯片是实现人工智能用场或深度学习运用的专用芯片，芯片与算法的结合程度高，因此接下来将会按照用场、支配位置以及运用处景来谈论 AI 芯片的落地及干系市场规模。

在人工智能的技能根本上，深度学习算法对付利用者来说会有“演习”和“推理”两种用场，这是由于深度学习算法就犹如人类的大脑一样，须要经由学习才能做出判断，就像人要能辨识猫狗，首先须要学习理解猫狗的特色。
因此，企业在支配人工智能设备时，也会经历算法/模型演习，再进行推理运用。
一样平常来说，如图 8 所示，实行演习任务的 AI 芯片仅会支配在云端和边缘端上，而实行推理任务的 AI 芯片会支配在云端、边缘端和终端上，运用范围更广，这是由于推理的算力需求较低。
运用处景和深度学习算法的类型有关。

打算机视觉常日会利用卷积神经网络(CNN)演习模型，自然语言处理( NLP )则会使用循环神经网络( RNN )演习模型，AI芯片也紧张运用于视觉和措辞。
但是，相较于 CNN 和 RNN 等较旧的算法，现在深度学习算法持续在演化中，因此行业运用时并不局限于上述两类算法。
每家人工智能企业都有自己独特的算法，AI 芯片企业也是一样，会根据自己的改良算法来设计AI芯片。

4.7.1 云端市场

随着云端市场需求不断上升，做事器 AI 芯片的市场前景乐不雅观。
按照 AI 芯片的支配位置，可大略将AI 芯片市场分成云端(边缘端并入云端)市场和终端市场两类，具有云打算需求的行业紧张是金融业、医疗做事业、制造业、零售/批发以及政府部门等 5 大行业。

根据 IDC 数据，如图 9 所示，云打算需求增长快速，在 2018~2019 年环球云打算支出将迎来大幅度增长，5 大行业的支出最低增长 17.3% ，最高 26.3% ，个中以医疗业的需求最高，超 100 亿美元。
与此同时，根据 IDC 数据，2018 年第三季度环球做事器设备的出货量达 320 万台，营收达 234 亿美元以上，从出货增长率来看，2018 年整年营收达 1 000 亿美元以上，远超过 2017 年营收 669 亿美元。

云打算支出的快速增长，代表云打算的需求兴旺。
做事器的出货量持续提升，也意味着支配做事器的 AI 芯片的需求量随着提升。
由此可见，云端芯片的市场未来将快速增长。

4.7.2 终端市场

当前的终端市场上，紧张有两大落地场景，一个是聪慧型手机，另一个是物联网设备。
手机又被称作移动端，在聪慧型手机上，AI 芯片的紧张任务是拍照后的图像处理，以及帮忙聪慧助理的语音处理。
根据 IDC 的数据，环球聪慧型手机出货量已经连续两年超过 14 亿部，个中环球前 5 大厂商中有 3 家是中国企业，按2018年出货量由高到低排序依次为，华为2.06亿部、小米1.23亿部，和OPPO1.13亿部。

除手机之外，物联网也是当前终端市场中主要的一部分。
根据 IDC 数据，物联网的市场紧张在家当运用上，制造业、运输业和公用奇迹合计超过3 290亿美元，个中消费性产品(包含智能家居、穿着设备、聪慧座舱等)占1 080亿美元。
AI芯片在物联网产品上的运用紧张有两个用场，一个是视觉 AI芯片，另一个是语音 AI 芯片，但由于自然措辞处理的 AI 产品开拓难度高，目前新创 AI 芯片企业紧张切入的市场是打算机视觉设备的落地场景，比如家庭安全设备。
根据 IDC 数据，环球智能家居市场中的家庭安全设备出货量已达 9 770 万台，而智能音箱也有 9 980 万台设备，两类设备至 2022 年都会增长超过2 亿以上。
总而言之，物联网在智能家居场景落地可以担保具有千万发卖量的市场。

未来，自动驾驶将是终端芯片运用的另一块主要场景。
根据 MARKLINES 的数据，2014 年中国汽车发卖量为 2 349.2 万辆，2018 年已增长至 2 808.1 万辆。
中国千万量级汽车发卖市场对付开拓自动驾驶技能的企业具有极大吸引力。
纵然中国汽车发卖量已达千万量级，但目前电动车发卖量仍不及整体汽车发卖量的 10% ，而自动驾驶技能的发展因此电动车为主，电动车市场有很大的增长空间。

结论

目前，我国的人工智能芯片行业发展尚处于起步阶段。
长期以来，中国在CPU、GPU、DSP处理器设计上一贯处于追赶地位，绝大部分芯片设计企业依赖国外的 IP 核设计芯片，在自主创新上受到了极大的限定。
然而，人工智能的兴起，无疑为中国在处理器领域实现弯道超车供应了绝佳的机遇。
人工智能领域的运用目前还处于面向行业运用阶段，生态上尚未形成垄断，国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上。
因此，基于新兴技能和运用市场，中国在建立人工智能生态圈方面将大有可为。

由于我国分外的环境和市场，海内 AI 芯片的发展目前呈现出百花齐放、百家争鸣的态势，AI 芯片的运用领域也遍布股票交易、金融、商品推举、安防、早教机器人以及无人驾驶等浩瀚领域，催生了大量的人工智能芯片创业公司，如北京地平线信息技能有限公司、北京深鉴科技有限公司、北京中科寒武纪科技有限公司等。
只管如此，海内公司却并未如国外大公司一样形成市场规模，反而涌现各不相谋的散裂发展现状。
除了新兴创业公司，海内研究机构如北京大学、清华大学、中国科学院等在 AI 芯片领域都有深入研究;而其他公司如百度和北京比特大陆科技有限公司等亦在积极布局人工智能芯片家当。
可以预见，未来谁先在人工智能领域节制了生态系统，谁就节制住了这个家当的主动权。

参考文献[ 1 ] YANN L C, CORTES C. The MNIST database of hand-written digits[EB/OL].[2019-02-26]. http://yann.lecun.com /exdb/mnist/.[ 2 ] TAIGMAN Y, YANG M, RANZATO M A, et al. Deep- face: Closing the gap to humanlevel performance in face verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 1701-1708.[ 3 ] Amazon Alexa. Ways to build with Alexa[EB/OL]. [EB/ OL]. [2019-02-24]. https://developer.amazon.com/alexa.[ 4 ] Apple Siri. Siri does more than ever, even before you ask [EB/OL]. [2019-02-24]. http://www.apple.com/ios/siri/.[ 5 ] Microsoft Cortana Personal Assistant. Cortana. Your intelligent assistant across your life [EB/OL]. [2019-02-24]. https://www.microsoft.com/en-us/cortana.[ 6 ] QUIGLEY M, CONLEY K, GERKEY B, et al. ROS: an open-source Robot Operating System[C]// ICRA workshop on open source software. 2009: 5.[ 7 ] URMSON C, BAGNELL J A, BAKER C R, et al. Tartan racing: a multi- modal approach to the DARPA urban challenge[R]. Technical report, Carnegie Mellon University, 2007.[ 8 ] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.[ 9 ] EMILIO M, MOISES M, GUSTAVO R, et al. Pac-mAnt: optimization based on ant colonies applied to developing an agent for Ms. Pac- Man[C]// IEEE Symposium on Computational Intelligence and Games (CIG). IEEE, 2010: 458-464.[10] CHEN T, DU Z, SUN N, et al. DianNao: a small footprint highthroughput accelerator for ubiquitous machine- learning[C]// 128 International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2014: 269-284.[11] CHEN Y, LUO T, LIU S, et al. DaDianNao: a machine-learning supercomputer[C]// 2014 47th Annual IEEE/ ACM International Symposium on Microarchitecture (MICRO). IEEE, 2014: 609-622.[12] LIU D, CHEN T, LIU S, et al. PuDianNao: a polyvalent machine learning accelerator[C]// International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2015:369-381.[13] DU Z, FASTHUBER R, CHEN T, et al. ShiDianNao: Shifting vision processing closer to the sensor[C]// International Symposium on Computer Architecture (ISCA). 2015:92-104.[14] JOUPPI NP, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit[C]// International Symposium on Computer Architecture (IS- CA). 2017:1-12.[15] KAPOOHT. Von Neumann architecture scheme[J/OL]. The Innovation in Computing Companion, 257- 259. https://en.wikipedia.org/wiki/Von_Neumann_architecture.[16] FARABET C, POULET C, HAN J Y, et al. CNP: an fpga-based processor for convolutional networks[C]// International Conference on Field Programmable Logic and Applications (FPL). 2009:32-37.[17] FARABET C, MARTINI B, CORDA B, et al. Neu Flow: a runtime reconfigurable dataflow processor for vision [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2011:109-116.[18] GOKHALE V, JIN J, DUNDAR A, et al. A 240 G-ops/s mobile coprocessor for deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) . IEEE, 2014: 682-687.[19] NEUMANN J V. The principles of large-scale computing machines[J]. Annals of the History of Computing, 1981, 3(3):263-273.[20] MEAD C. Neuromorphic electronic systems[J]. Proceedings of the IEEE, 1990, 78(10):1629-1636.[21] STRUKOV D B. Nanotechnology: smart connections[J]. Nature, 2011, 476(7361): 403-405.[22] JEFF H, BLAKESLEE S. On intelligence[M]. London:Macmillan, 2007.[23] BENJAMIN, VARKEY B, GAO P, et al. Neurogrid: a mixed- analogdigital multichip system for large- scale neural simulations[J]. Proceedings of the IEEE, 2014, 102 (5): 699-716.[24] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345 (6197): 668-673.[25] CASSIDY A S, ALVAREZ-ICAZA R, AKOPYAN F. Real- time scalable cortical computing at 46 giga- synaptic OPS/watt with ~100 × speedup in time- to- solution and ~ 100,000 × reduction in energy- to- solution[C]// SC '14: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2014.[26] FURBER S B, GALLUPPI F, TEMPLE S, et al. The spinnaker projec[J]. Proceedings of the IEEE, 2014,102 (5): 652-665.[27] SCHEMMEL J, BRIIDERLE D, GRIIBL A, et al. A waferscale neuromorphic hardware system for large- scale neural modeling[C]// Proceedings of 2010 IEEE International Symposium on Circuits and Systems. IEEE, 2010.[28] LECUN Y, BENGIO Y, HINTON G, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444.[29] KELLER J, PEREZ O. Improving MCTS and neural network communication in computer go[R]. Worcester Polytechnic Institute, 2016.[30] ZHANG S J ，DU Z D ，ZHANG L, et al. Cambricon- X an accelerator for sparse neural networks [C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). IEEE, 2016.[31] KOWALIK J S. Parallel computation and computers for artificial intelligence[M]. Springer Science & Business Media, 2012.[32] VERHELST, M, MOONS B. Embedded deep neural network processing algorithmic and processor techniques bring deep learning to IoT and edge devices[J]. IEEE Solid-State Circuits Magazine, 2017, 9(4): 55-65.[33] JOUPPI N P, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit [J].44th International Symposium on Computer Architecture(ISCA), 2017.[34] SZE V, CHEN Y H, YANG T J, et al. Efficient processing of deep neural networks a tutorial and survey [J/OL].Proceedings of the IEEE, 2017, 105(12).[35] BENNIS M. Smartphones will get even smarter with on device machine learning[J/OL]. IEEE Spectrum, 2018. https://spectrum.ieee.org/tech-talk/telecom/wireless/smart- phones- will- get- even- smarter- with- ondevice- machine-learning.[36] MAASS W. Networks of spiking neurons: the third generation of neural network models[J]. Neural Networks, 1997, 10(9): 1659-1671.[37] MEAD C. Neuromorphic electronics system[J]. Proceedings of the IEEE, 1990, 78(10): 1629-1636.[38] PAINKRAS E, PLANA L A, GARSIDE J, et al. SpiNNaker: a 1- W 18- core system- on- chip for massively- parallel neural network simulation[J]. IEEE Journal of SolidState Circuits Page(s), 2013, 48(8):1943 - 1953.[39] BENJAMIN B V, GAO P, MCQUINN E, et al. Neu- rogrid a mixed- analog digital multichip system or large- scale neural simulations[J]. Proceedings of IEEE, 2014, 102(5): 699-716.[40] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345(6197): 668-673.[41] DAVIES M, SRINIVASA N, LINT H, et al. Loihi a neuromorphic manycore processor with on-chip learning[J]. IEEE Micro, 2018, 38(1): 82 - 99.[42]KIM S. NVM neuromorphic core with 64 k- cell(256- by- 256) phase change memory synaptic array with on-chip neuron circuits for continuous in-situ learning[C]// IEEE International Electron Devices Meeting (IEDM). IEEE, 2015.[43] CHUM, KIM B, PARK S, et al. Neuromorphic hardware system for visual pattern recognition with memristor array and CMOS neuron[J]. IEEE Transactions on Industrial Electronics, 2015, 62(4): 2410 - 2419.[44] SHI LP , PEI J, DENG N, et al. Development of a neuromorphic computing system[C]// IEEE International Electron Devices Meeting(IEDM). IEEE, 2015.[45] JIANG Y N，HUANG P, ZHU, D B, et al. Design and hardware implementation of neuromorphic systems with RRAM synapses[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2018, 65(9): 2726 - 2738. [46] YU S M, CHEN P Y. Emerging memory technologies: recent trends and prospects[J]. Proceedings of the IEEE,2016, 8(2): 43 - 56.[47] SURI M. CBRAM devices as binary synapses for low-power stochastic neuromorphic systems: auditory and visual cognitive processing applications[C]// Proceeding of IEEE International Electron Devices Meeting (IEDM), 2012: 3-10.[48] WANG Z. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16(1): 101-108.[49] YANG J J, STRUKOV D B, STEWART D R. Memristive devices for computing[J]. Nature Nanotechnology,2013, 8(1): 13-24.[50] JO S H. Nanoscale memristor device as synapse in neuro-morphic systems[J].Nano letters, 2010, 10(4): 1297-1301. [51] OHNO T. Short- term plasticity and long- term potentiation mimicked in single inorganic synapses[J]. Nature Materials, 2011, 10(8): 591-595.[52] WANG, Z R，JOSHI S，SAVEL’EV S E, et al. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16 (1): 101-108.

来源：任源，潘俊，刘京京,等. 人工智能芯片的研究进展[J]. 微纳电子与智能制造, 2019, 1 (2): 20-34.

REN Yuan, PAN Jun, LIU Jingjing, et al. Overview of artificial intelligence chip development [J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 20-34.

《微纳电子与智能制造》刊号：CN10-1594/TN

主管单位：北京电子控股有限任务公司

主理单位：北京市电子科技科技情报研究所、北京方略信息科技有限公司