「科普」什么是AI芯片？_芯片_算法

文章目录 [+]

AI的三大关键根本要素是数据、算法和算力。
随着云打算的广泛运用，特殊是深度学习成为当前AI研究和利用的主流办法，AI对付算力的哀求不断快速提升。
随着边缘打算的发展，AI在边缘真个形式越来越多样化，数量越来越多。

数据是AI算法的“饲料”

「科普」什么是AI芯片？_芯片_算法「科普」什么是AI芯片？_芯片_算法通讯

在如今这个时期，无时无刻不在产生数据（包括语音、文本、影像等等），AI家当的飞速发展，也萌生了大量垂直领域的数据需求。
在AI技能当中，数据相称于AI算法的“饲料”。

（图片来自网络侵删）

目前，数据标注是AI的上游根本家当，以人工标注为主，机器标注为辅。
最常见的数据标注类型有五种：属性标注（给目标工具打标签）、框选标注（框选出要识别的工具）、轮廓标注（比框选标注更加详细，边缘更加精确）、描点标注（标注出目标工具上细致的特色点）、其他标注（除以上标注外的数据标注类型）。
AI算法须要通过数据演习不断完善，而数据标注是大部分AI算法得以有效运行的关键环节。

算法是AI的背后“推手”

AI算法是数据驱动型算法，是AI背后的推动力量。

本日“AI热潮”的涌现紧张由于机器学习，尤其是机器学习中的深度学习技能取得了巨大进展，并在大数据和大算力的支持下发挥巨大的威力。

当前最具代表性深度学习算法模型有深度神经网络（Deep Neural Network，简称DNN）、循环神经网络（Recurrent Neural Network，简称RNN）、卷积神经网络（Convolutional Neural Network，简称CNN）。
谈到深度学习，DNN和RNN便是深度学习的根本。
DNN内部的神经网络层可以分为三类，输入层，隐蔽层和输出层, 一样平常来说第一层是输入层，末了一层是输出层，而中间的层数都是隐蔽层。
DNN可以理解为有很多隐蔽层的神经网络，是非常弘大的系统，演习出来须要很多数据、很强的算力进行支撑。

算力是根本举动步伐

AI算法模型对付算力的巨大需求，推动了本日芯片业的发展。
据OpenAI测算,2012年开始,环球AI演习所用的打算量呈现指数增长,均匀每3.43个月便会翻一倍,目前打算量已扩大30万倍,远超算力增长速率。

在AI技能当中，算力是算法和数据的根本举动步伐，支撑着算法和数据，进而影响着AI的发展，算力的大小代表着对数据处理能力的强弱。

算力源于芯片，通过根本软件的有效组织，终极开释到终端运用上，作为算力的关键根本，AI芯片的性能决定着AI家当的发展。

AI运算指以“深度学习” 为代表的神经网络算法，须要系统能够高效处理大量非构造化数据（文本、视频、图像、语音等）。
须要硬件具有高效的线性代数运算能力，打算任务具有：单位打算任务大略，逻辑掌握难度哀求低，但并走运算量大、参数多的特点。
对付芯片的多核并走运算、片上存储、带宽、低延时的访存等提出了较高的需求。

自2012年以来，人工智能演习任务所需求的算力每 3.43 个月就会翻倍，大大超越了芯片家当长期存在的摩尔定律（每 18个月芯片的性能翻一倍）。
针对不同运用处景，AI芯片还应知足：对主流AI算法框架兼容、可编程、可拓展、低功耗、体积及价格等需求。

【AI芯片包括：GPU、FPGA、ASIC、类脑芯片】

从技能架构来看，AI芯片紧张分为图形处理器（GPU）、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、类脑芯片四大类。
个中，GPU是较为成熟的通用型人工智能芯片，FPGA和ASIC则是针对人工智能需求特色的半定制和全定制芯片，类脑芯片颠覆传统冯诺依曼架构，是一种仿照人脑神经元构造的芯片，类脑芯片的发展尚处于起步阶段。

GPU 通用性强、速率快、效率高，特殊适宜用在深度学习演习方面，但是性能功耗比较低。
FPGA 具有低能耗、高性能以及可编程等特性，相对付 CPU 与 GPU 有明显的性能或者能耗上风，但对利用者哀求高。
ASIC 可以更有针对性地进行硬件层次的优化，从而得到更好的性能、功耗比。
但是ASIC 芯片的设计和制造须要大量的资金、较长的研发周期和工程周期，而且深度学习算法仍在快速发展，若深度学习算法发生大的变革，FPGA 能很快改变架构，适应最新的变革，ASIC 类芯片一旦定制则难于进行修正。

CPU (CentralProcessing Unit)能不能算？为什么CPU不能胜任？

中心处理器作为打算机系统的运算和掌握核心，是信息处理、程序运行的终极实行单元，CPU 是对打算机的所有硬件资源（如存储器、输入输出单元）进行掌握调配、实行通用运算的核心硬件单元。

优点：CPU有大量的缓存和繁芜的逻辑掌握单元，非常善于逻辑掌握、串行的运算

缺陷：不善于繁芜算法运算和处理并行重复的操作。

对付AI芯片来说，算力最弱的是cpu。
虽然cpu主频最高，但是单颗也就8核,16核的样子，一个核3.5g,16核也就56g，再考虑指令周期，每秒最多也就30g次乘法。

intel、AMD、还有浩瀚利用ARM内核的芯片厂家。

1、GPU (GraphicsProcessing Unit)

图形处理器，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、事情站、游戏机和一些移动设备（如平板电脑、智好手机等）上做图像和图形干系运算事情的微处理器。

目前， GPU 已经发展到较为成熟的阶段。
谷歌、 FACEBOOK、微软、 Twtter和百度等公司都在利用GPU 剖析图片、视频和音频文件，以改进搜索和图像标签等运用功能。
此外，很多汽车生产商也在利用GPU芯片发展无人驾驶。
不仅如此， GPU也被运用于VR/AR 干系的家当。

但是 GPU也有一定的局限性。
深度学习算法分为演习和推断两部分， GPU 平台在算法演习上非常高效。
但在推断中对付单项输入进行处理的时候，并行打算的上风不能完备发挥出来。

优点：供应了多核并行打算的根本构造，且核心数非常多，可以支撑大量数据的并行打算，拥有更高的浮点运算能力。

缺陷：管理掌握能力（最弱），功耗（最高）。

生产厂商：NVIDIA（英伟达）、AMD

当前国产GPU家当链入口替代：设计环节的一些公司，景嘉微、芯动科技、摩尔线程、沐曦科技等企业正在不断追赶。

2、FPGA（Field Programmable Gate Array）

FPGA是在PAL、GAL等可编程器件的根本上进一步发展的产物。
它是作为专用集成电路（ASIC）领域中的一种半定制电路而涌现的，既办理了定制电路的不敷，又战胜了原有可编程器件门电路数有限的缺陷。

优点：可以无限次编程，延时性比较低，同时拥有流水线并行和数据并行（GPU只有数据并行）、实时性最强、灵巧性最高。

FPGA可同时进行数据并行和任务并行打算，在处理特定运用时有更加明显的效率提升。
对付某个特定运算，通用 CPU可能须要多个时钟周期，而 FPGA 可以通过编程重组电路，直接天生专用电路，仅花费少量乃至一次时钟周期就可完成运算。

此外，由于 FPGA的灵巧性，很多利用通用途理器或 ASIC难以实现的底层硬件掌握操作技能，利用 FPGA 可以很方便地实现。
这个特性为算法的功能实现和优化留出了更大空间。
同时FPGA 一次性本钱(光刻掩模制作本钱)远低于ASIC，在芯片需求还未成规模、深度学习算法暂未稳定，须要不断迭代改进的情形下，利用 FPGA 芯片具备可重构的特性来实现半定制的人工智能芯片是最佳选择之一。

功耗方面，从体系构造而言， FPGA 也具有天生的上风。
传统的冯氏构造中，实行单元(如 CPU 核)实行任意指令，都须要有指令存储器、译码器、各种指令的运算器及分支跳转处理逻辑参与运行，而FPGA每个逻辑单元的功能在重编程(即烧入)时就已经确定，不须要指令，无需共享内存，从而可以极大的降落单位实行的功耗，提高整体的能耗比。

缺陷：开拓难度大、只适宜定点运算、价格比较昂贵

生产厂商：Altera（Intel收购）、Xilinx（AMD收购）

当前国产FPGA厂家，复旦微、紫光同创、安路等公司。
AI运用对FPGA的速率、规模等都有很高的哀求，国产厂家还在努力中。

3、ASIC（Application Specific IntegratedCircuit）

ASIC,即专用集成电路，指应特定用户哀求和特定电子系统的须要而设计、制造的集成电路。
目前用CPLD（繁芜可编程逻辑器件）和 FPGA（现场可编程逻辑阵列）来进行ASIC设计是最为盛行的办法之一。

目前以深度学习为代表的人工智能打算需求，紧张采取GPU、FPGA等已有的适宜并行打算的通用芯片来实现加速。
在家当运用没有大规模兴起之时，利用这类已有的通用芯片可以避免专门研发定制芯片(ASIC)的高投入和高风险。
但是，由于这类通用芯片设计初衷并非专门针对深度学习，因而天然存在性能、功耗等方面的局限性。
随着人工智能运用规模的扩大，这类问题日益突显。

GPU作为图像处理器，设计初衷是为了应对图像处理中的大规模并行打算。
因此，在运用于深度学习算法时，有三个方面的局限性：

第一：运用过程中无法充分发挥并行打算上风。
深度学习包含演习和推断两个打算环节， GPU 在深度学习算法演习上非常高效，但对付单一输入进行推断的场合，并行度的上风不能完备发挥。
第二：无法灵巧配置硬件构造。
GPU 采取 SIMT 打算模式，硬件构造相对固定。
目前深度学习算法还未完备稳定，若深度学习算法发生大的变革， GPU 无法像 FPGA 一样可以灵巧的配制硬件构造。
第三：运行深度学习算法能效低于FPGA。

只管 FPGA 倍受看好，乃至类似百度大脑这样的一些云打算平台，也是基于 FPGA 平台研发，但其毕竟不是专门为了适用深度学习算法而研发，实际运用中也存在诸多局限：

第一：基本单元的打算能力有限。
为了实现可重构特性， FPGA 内部有大量极细粒度的基本单元，但是每个单元的打算能力(紧张依赖 LUT 查找表)都远远低于 CPU 和 GPU 中的 ALU 模块。
第二：打算资源占比相对较低。
为实现可重构特性， FPGA 内部大量资源被用于可配置的片上路由与连线。
第三：速率和功耗相对专用定制芯片(ASIC)仍旧存在不小差距。
第四，：FPGA 价格较为昂贵。
在规模放量的情形下单块 FPGA 的本钱要远高于专用定制芯片。

因此，随着人工智能算法和运用技能的日益发展，以及人工智能专用芯片 ASIC家当环境的逐渐成熟，全定制化人工智能 ASIC也逐步表示出自身的上风

优点:它作为集成电路技能与特定用户的整机或系统技能紧密结合的产物，与通用集成电路比较具有体积更小、重量更轻、功耗更低、可靠性提高、性能提高、保密性增强、本钱降落等优点。

缺陷：灵巧性不足，通用性不足。

紧张性能指标：功耗、速率、本钱

生产厂商：谷歌、华为海思、算能（下图为其AI芯片）、寒武纪等。

ASIC 芯片非常适宜人工智能的运用处景。

首先，ASIC的性能提升非常明显。
例如英伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速率是其 2014 年推出GPU 系列的 12 倍。
谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相称于当前芯片推拿尔定律发展 7 年后的水平。
正如 CPU 改变了当年弘大的打算机一样，人工智能 ASIC 芯片也将大幅改变如今 AI 硬件设备的面貌。
如大名鼎鼎的 AlphaGo 利用了约 170 个图形处理器（GPU）和 1200 个中心处理器（CPU），这些设备须要占用一个机房，还要配备大功率的空调，以及多名专家进行系统掩护。
而如果全部利用专用芯片，极大可能只须要一个普通收纳盒大小的空间，且功耗也会大幅降落。

第二，下贱需求促进人工智能芯片专用化。
从做事器，打算机到无人驾驶汽车、无人机再到智能家居的各种家电，至少数十倍于智好手机体量的设备须要引入感深交互能力和人工智能打算能力。
而出于对实时性的哀求以及演习数据隐私等考虑，这些运用不可能完备依赖云端，必须要有本地的软硬件根本平台支撑，这将带来海量的人工智能芯片须要。

目前人工智能专用芯片的发展方向包括：紧张基于 FPGA 的半定制、针对深度学习算法的全定制和类脑打算芯片 3 个方向。

在芯片需求还未形成规模、深度学习算法暂未稳定，AI 芯片本身须要不断迭代改进的情形下，利用具备可重构特性的 FPGA 芯片来实现半定制的人工智能芯片是最佳选择之一。
“深度学习处理单元”（Deep Processing Unit，DPU）的芯片，希望以 ASIC 级别的功耗达到优于 GPU 的性能。
这种半定制芯片虽然依托于 FPGA 平台，但是抽象出了指令集与编译器，可以快速开拓、快速迭代，与专用的 FPGA 加速器产品比较，也具有非常明显的上风。

深度学习算法稳定后，AI 芯片可采取 ASIC 设计方法进行全定制，使性能、功耗和面积等指标面向深度学习算法做到最优。

4、类脑芯片

“抛弃冯诺依曼架构”，“模拟人类大脑打算”，近年来，这些噱头为类脑芯片吸引了不少人的把稳。
他们相中了这类“非传统”芯片在AI上的潜力，毕竟将AI打算做到大规模和低功耗还是一件不小壮举。
因此类脑芯片被诸多低功耗边缘运用看好，而传统的密集型云端打算的重任仍旧担在传统的AI芯片的肩上。
无论是Fabless，还是IDM，不少大厂实在都在关注边缘AI的市场，比如英特尔的Movidius和英伟达的Jetson等等。
但市情上也有一些厂家在发力类脑芯片的开拓，同时探索新架构的芯片年夜将用到若何的软件开拓生态。
由于这些类脑芯片每每用到的是脉冲神经网络（SNN），直接拿常用的卷积神经网络（CNN）或人工神经网络（ANN）硬套的话，是切切行不通的。
也正是由于软硬件上的双重寻衅，限定了类脑芯片的商用。

类脑芯片不采取经典的冯·诺依曼架构，而是基于神经形态架构设计，以IBM Truenorth为代表。
IBM 研究职员将存储单元作为突触、打算单元作为神经元、传输单元作为轴突搭建了神经芯片的原型。

目前， Truenorth用三星 28nm功耗工艺技能，由 54亿个晶体管组成的芯片构成的片上网络有4096个神经突触核心，实时作业功耗仅为70mW。
由于神经突触哀求权重可变且要有影象功能， IBM采取与CMOS工艺兼容的相变非易失落存储器(PCM)的技能实验性的实现了新型突触，加快了商业化进程。

格拉茨技能大学的打算机科学家在 Nature 子刊上揭橥的一篇论文表明，他们找到了一种在神经形态芯片上仿照 LSTM 的方案，可以让类脑神经形态芯片上的 AI 算法能效提高约 1000 倍。

随着智好手机的遍及，手机游戏也越来越受欢迎。
但视频游戏等程序会大量耗电耗能。
与 GPU 等标准硬件比较，基于 spike 的神经形态芯片有望实现更节能的深度神经网络（DNN）。
但这须要我们理解如何在基于 event 的稀疏触发机制（sparse firing regime）中仿照 DNN，否则神经形态芯片的节能上风就会损失。

比如说，办理序列处理任务的 DNN 常日利用长 - 短期影象单元（LSTM），这种单元很难仿照。
现在有一项研究仿照了生物神经元，通过放慢每个脉冲后的超极化后电位（AHP）电流，供应了一种有效的办理方案。
AHP 电流可以很随意马虎地在支持多节段（multi-compartment）神经元模型的神经形态硬件（例如英特尔的 Loihi 芯片）上实现类似于 LSTM 的功能。

【GPU不是处理动画、图片么，为什么可以用于加速人工智能？】

1、什么是GPU、为什么比CPU快

图形处理器（英语：graphics processing unit，缩写：GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、事情站、游戏机和一些移动设备（如平板电脑、智好手机等）上做图像和图形干系运算事情的微处理器。

GPU使显卡减少了对CPU的依赖，并进行部分原来CPU的事情，尤其是在3D图形处理时GPU所采取的核心技能有硬件T&L（几何转换和光照处理）、立方环境材质贴图和顶点稠浊、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技能可以说是GPU的标志。

打算便是打算，数学上都是一样的，1+1用什么算都是2，CPU算神经网络也是可以的，算出来的神经网络放到实际运用中效果也很好，只不过速率会很慢罢了。

GPU的起源

GPU全称叫做graphics processing unit，图形处理器，顾名思义便是处理图形的。

电脑显示器上显示的图像，在显示在显示器上之前，要经由一些列处理，这个过程有个专有的名词叫“渲染”。
以前的打算机上没有GPU，渲染便是CPU卖力的。
渲染是个什么操作呢，实在便是做了一系列图形的打算，但这些打算每每非常耗时，占用了CPU的一大部分韶光。
而CPU还要处理打算机器许多其他任务。
因此就专门针对图形处理的这些操作设计了一种处理器，也便是GPU。
这样CPU就可以从繁重的图形打算中解脱出来。

由于GPU是专门为了渲染设计的，那么他也就只能做渲染的那些事情。

渲染这个过程详细来说便是几何点位置和颜色的打算，这两者的打算在数学上都是用四维向量和变换矩阵的乘法，因此GPU也就被设计为专门适宜做类似运算的专用途理器了。
为什么说专用呢，由于很多事情他做不了。

CPU通用性强，但是专用领域性能低。
工程便是折衷，这项强了，别的就弱了。
再后来游戏、3D设计对渲染的哀求越来越高，GPU的性能越做越强。
论纯理论打算性能，要比CPU赶过几十上百倍。

这个视频，非常具象地表述了CPU和GPU在图像处理时的不同的事理和方法。
看到GPU的模型喷射出的一瞬间，你就秒懂了。

人们就想了，既然GPU这么强，那用GPU做打算是不是比较CPU速率能大大提升呢？于是就有了GPGPU（general purpose GPU，通用打算GPU）这个观点。
但我们前面提到了，GPU是专门为了图像渲染设计的，他只适用于那些操作。
但幸运的是有些操作和GPU本职能做的那些东西非常像，那就可以通过GPU提高速率，比如深度学习。

深度学习中一类成功运用的技能叫做卷积神经网络CNN，这种网络数学上便是许多卷积运算和矩阵运算的组合，而卷积运算通过一定的数学手段也可以通过矩阵运算完成。
这些操作和GPU本来能做的那些图形点的矩阵运算是一样的。
因此深度学习就可以非常恰当地用GPU进行加速了。

以前GPGPU(通用GPU)观点不是很火热，GPU设计出来便是为了图形渲染。
想要利用GPU赞助打算，就要完备遵照GPU的硬件架构。
而现在GPGPU越来越盛行，厂家在设计和生产GPU的时候也会照顾到打算领域的需求了。
比如今年英伟达发布M40和P100的时候，都在说”针对深度学习设计“，当然实在这里面炒观点的身分更大了，但至少可以看出厂家越来越多地看重通用GUGPU打算了。

2、GPGPU与GPU的差异

GPU的产生是为理解决图形渲染效率的问题，但随着技能进步，GPU越来越强大，尤其是shader涌现之后（这个许可我们在GPU上编程），GPU能做的事越来越多，不再局限于图形领域，也就有人动手将其能力扩展到其他打算密集的领域，这便是GP(General Purpose)GPU。

3、GPU为什么快

比如说你用美图xx软件，给一张图片加上模糊效果的时候，CPU会这么做：

利用一个模糊滤镜算子的小窗口，从图片的左上角开始处理，并从左往右，再从左往右进行游走处理，直到全体图片被处理完成。
由于CPU只有一个或者少数几个核，以是实行这种运算的时候，只能老诚笃实从头遍历到末了。

但是有一些聪明的读者会创造，每个窗口在处理图片的过程中，都是独立的，相互没有关系的。
那么同时用几个滤镜窗口来处理是不是更快一些? 于是我们有了GPU, 一样平常的GPU都有几百个核心，意味着，我们可以同时有好几百个滤镜窗口来处理这张图片。

以是说，GPU起初的设计目标便是为了处理这种图形图像的渲染事情，而这种事情的特性便是可以分布式、每个处理单元之间较为独立，没有太多的关联。
而一部分机器学习算法，比如遗传算法，神经网络等，也具有这种分布式及局部独立的特性（e.g.比如说一条神经网络中的链路跟另一条链路之间是同时进行打算，而且相互之间没有依赖的），这种情形下可以采取大量小核心同时运算的办法来加快运算速率。

4、为什么GPU在AI运用领域活地好？

a、存量用户多，生态好

打造“GPU”观点，2006年推出CUDA构建生态上风•Nivdia首席科学家DavidKirk建议授予GPU得当的编程模型，把丰富的开拓资源分享给开拓者。
•2006年开拓通用化的CUDA（ComputeUnified Device Architecture），硬件设计中增加干系的CUDA逻辑电路，虽然DieSize、散热、本钱增加，但可以通过CUDA构建通用打算生态系统。
•为做事AI遍及后的深度学习运用，Nvidia开拓用于深度神经网络GPU加速库cuDNN，开拓TensorRT作为深度推理学习工具，加速TensorFlow推理，开拓DeepStream通过借助GPU硬件特性快速构建高性能视频剖析运用程序。
•2021年CUDA-X开拓者已经超过100万，进化到了9.0，可以兼容DirectCompute、OpenCL等打算接口。

b、游戏业务好，老有钱了

依托游戏业务的稳定发展形成正向现金流

GPU原来绑定的PC开始逐步衰退，Nvidia计策核心转向高端游戏显卡，强大的3D渲染能力能更好支持游戏运用。

市场霸占率在60%以上，一度将AMD的市场霸占率持续压制在20%以下。

游戏市场的持续成功为公司发展打算型GPU和AI干系运用供应了现金流保障。

c、发力AI、节奏好

2016年起加强投入数据中央，本钱AI芯片龙头•数据中央业务爆发式增长，云数据中央和超级数据中央加速培植，AI深度学习和高性能打算在云端落地使Nivdia快速增长，2016年起连续7个季度数据中央业务的增长超过100%。
•随着比特币退朝，AI干系运用预期大打折扣，英伟达的股价腰斩，公司遭遇上市后的第二次重大挫折，此时及时推出支持实时光芒追踪的Turing架构显卡，公司再度依赖游戏主业走出低估。
•2019年，NvidiaGPU被环球紧张云厂商大量利用（阿里、AWS、Azure、Google），市场霸占率70%。
数据中央业务在英伟达占比为26%，公司成为AI芯片龙头。

综上，英伟达从“显卡”厂家逐步转型为“GPU打算平台”供应商，显卡合营CUDA生态是基石，近十年享受到了AI红利，发展为AI芯片龙头，市场霸占率70%。

【ASIC大有机会寻衅GPU、国产的机会在于ASIC】

AI芯片有时特指用于AI的ASIC，比如大名鼎鼎的谷歌的TPU1。

TPU1，大约700M Hz，有256X256尺寸的脉动阵列，如下图所示。
一共256X256=64K个乘加单元，每个单元一次可实行一个乘法和一个加法。
那便是128K个操作。
（乘法算一个，加法再算一个）

其余，除了脉动阵列，还有其他模块，比如激活等，这些里面也有乘法、加法等。

以是，看看TPU1一秒钟的顶峰打算次数至少是

=128K X 700MHz=89600Gops=大约90Tops。

比拟一下CPU与TPU1，会创造打算能力有几个数量级的差距，这便是为啥说CPU慢。

当然，以上的数据都是完备最空想的理论值，实际情形，能够达到5%吧。
由于，芯片上的存储不足大，以是数据会存储在DRAM中，从DRAM取数据很慢的，以是，乘法逻辑每每要等待。
其余，AI算法有许多层网络组成，必须一层一层的算，以是，在切换层的时候，乘法逻辑又是安歇的，以是，诸多成分造成了实际的芯片并不能达到利润的打算峰值，而且差距还极大。

乘加运算硬件加速，脉冲阵列

脉动阵列并不是一个新鲜的词汇，在打算机体系架构里面已经存在很永劫光。
大家可以回顾下冯诺依曼架构，很多时候数据一定是存储在memory里面的，当要运算的时候须要从memory里面传输到Buffer或者Cache里面去。
当我们利用computing的功能来运算的时候，每每computing花费的韶光并不是瓶颈，更多的瓶颈在于memory的存和取。
以是脉动阵列的逻辑也很大略，既然memory读取一次须要花费更多的韶光，脉动阵列尽力在一次memory读取的过程中可以运行更多的打算，来平衡存储和打算之间的韶光花费。

下面说下脉冲阵列的基本事理：

首先，图中上半部分是传统的打算系统的模型。
一个处理单元（PE）从存储器（memory）读取数据，进行处理，然后再写回到存储器。
这个别系的最大问题是：数据存取的速率每每大大低于数据处理的速率。
因此，全体系统的处理能力（MOPS，每秒完成的操作）很大程度受限于访存的能力。
这个问题也是多年来打算机体系构造研究的主要课题之一，可以说是推动处理器和存储器设计的一大动力。
而脉动架构用了一个很大略的方法：让数据只管即便在处理单元中多流动一下子。

正如上图的下半部分所描述的，第一个数据首先进入第一个PE，经由处理往后被通报到下一个PE，同时第二个数据进入第一个PE。
以此类推，当第一个数据到达末了一个PE，它已经被处理了多次。
以是，脉动架构实际上是多次重用了输入数据。
因此，它可以在花费较小的memory带宽的情形下实现较高的运算吞吐率。

上面这张图非常直不雅观的从一维数据流展示了脉动阵列的大略逻辑。
当然，对付CNN等神经网络来说，很多时候是二维的矩阵。
以是，脉动阵列从一维到二维也能够非常契合CNN的矩阵乘加的架构。

优化 Memory 读取还可以从体系架构上对全体的Memory读取来做进一步的优化。
这里摘取的是寒武纪展示的一些科研成果。
实在比较主流的办法便是只管即便做Data Reuse，减少片上Memory和片外Memory的信息读取次数，增加片上memory，由于片上数据读取会更快一点，这种办法也能够只管即便降落Memory读取所花费的韶光，从而达到运算的加速。

目前来看，神经网络的尺寸是越来越大，参数越来越多，碰着大型NN模型，演习须要花几周乃至一两个月的时候，你会耐心等待么？溘然断电，统统重来？打算速率快，才能迅速反复迭代，研发出更强的AI模型。
速率便是金钱。

肯定的是，GPU还是比较快的，至少比CPU快得多，以是目前大多数都用GPU，这玩意随便一个都能价格轻松上万，太贵，而且，功耗高，常常缺货。
不适宜数据中央大量利用。

总的来说，CPU与GPU并不是AI专用芯片，为了实现其他功能，内部有大量其他逻辑，而这些逻辑对付目前的AI算法来说是完备用不上的，以是，自然造成CPU与GPU并不能达到最优的性价比。

当然ASIC是能效最高的，但目前，都在早期阶段，算法变革互异。
想搞一款通用的ASIC适配多种场景，还是有很多路须要走的。
但是，在通信领域，FPGA曾经也是风靡一时，但是随着ASIC的不断发展和蚕食，FPGA的份额和市场空间已经岌岌可危。
如果深度学习能够迅速发展，有可能这个过程会比通信领域过程更短。

人机大战落幕后的两个月，谷歌硬件工程师 Norm Jouppi 才公开了其加速硬件的存在。
在博客中，他阐明道，谷歌给数据中央装备这些加速器卡已经有超过一年的韶光。
虽然谷歌对技能细节严格保密，但已透露它们专为谷歌开源项目 TensorFlow 而优化；它采纳了：ASIC。

谷歌发布了人工智能芯片：Tensor Processing Unit，这是ASIC

谷歌研发TPU并非要取代CPU或者FPGA，谷歌自认为，TPU是介于CPU和ASIC (application-specific integrated circuit：运用集成电路)之间的芯片。
ASIC用于专门的任务，比如去除噪声的电路，播放视频的电路，但是ASIC明显的短板是不可变动任务。
通用CPU可以通过编程来适应各种任务，但是效率能耗比就不如ASIC。
一如前边所言，在机器学习方面，TPU兼具了CPU与ASIC的特点，可编程，高效率，低能耗。

谷歌费钱研发TPU，是给自己的闭环生态利用。
做AI芯片，虽然是根本算力，但是，做戏就得做全套。
以是华为、算能等国产芯片厂家都是供应完全的芯片办理方案、支持的AI框架要多，支持的算子要多，要有全流程开拓工具链。

比特币刚出来，那也是用CPU挖、后来用GPU挖、再后来用ASIC挖，末了蚂蚁矿机一统江湖。
目前已经进化成ASIC矿机了。
实在AI打算能力跟挖矿算力的演进是一个道理。

从2006年开始开启的深度学习热潮，CPU与GPU都能打算，创造GPU速率更快，但是贵啊，更多用的是CPU，而且，那时候GPU的CUDA可还不怎么样，后来，随着NN模型越来越大，GPU的上风越来越明显，CUDA也越来越“666”，目前就成了GPU的专场。
按照这个演进逻辑、谷歌为什么要自研TPU、国产芯片厂家为什么要自研各种AI的ASIC，华为的昇腾、算能的BM1684，寒武纪的DianNao（NPU），在相同的算力情形下，与GPU比较更经济、更加节能。
ASIC的上风很明显啊。
这也是为啥要开拓ASIC的情由。

参考文档：

华为昇腾社区《昇腾全栈 AI 软硬件平台》

算能官网《产品与方案》https://www.sophon.cn/

《AI 芯片的分类及技能》wujianming_110117 CSDN

《AI 芯片和传统芯片的差异》知乎作者每天杂谈

前期干系文档

边缘打算（雾打算）——AI+IoT的热词

谷歌发布AI终端芯片，国产AI芯片公司凉凉了么？

人工智能须要学习哪些数学知识？

AI家当及AI芯片全景剖析

探秘算能AI高密度做事器

关于衡量AI算力的“FLOPS”