看懂全球AI芯片详解“xPU”这可能是至今最全的一份常识点_芯片_处置器

文章目录 [+]

https://zhuanlan.zhihu.com/AIInside

作者：谭洪贺

看懂全球AI芯片详解“xPU”这可能是至今最全的一份常识点_芯片_处置器看懂全球AI芯片详解“xPU”这可能是至今最全的一份常识点_芯片_处置器互联网

献给：对AI芯片行业有兴趣、想快速理解干系公司和产品的各种读者。
不限芯片工程师。

（图片来自网络侵删）

致敬：向所有AI芯片领域的初创公司致敬，为你们免费打广告；向共同奋斗在AI芯片start-up的芯片工程师致敬，和你们一起前行。

随着AI观点火爆环球，做AI芯片的公司也层出不穷。
为了让市场和不雅观众能记住自家的产品，各家在芯片命名方面都下了点功夫，既要独特，又要和公司产品契合，还要朗朗上口，也要随意马虎让人记住。
比较故意思的是，很多家都采取了“xPU”的命名办法。

本文就来盘点一下目前各种“xPU”命名AI芯片，以及芯片行业里的各种“xPU”缩写，供吃瓜群众消遣，也供后来者起名参考。
此外，除了“xPU”命名办法，本文也扩展了一些“xxP”办法的以Processor命名的芯片或IP。
此外的此外，拍脑袋拍出了一些xPU命名备选方案，用下划线标示，并欢迎读者一起来开脑洞。

有心在AI芯片发力的公司，赶紧先抢个字母吧。
:)

APU

Accelerated Processing Unit

目前还没有AI公司将自己的处理器命名为APU，由于AMD早就用过APU这个名字了。
APU是AMD的一个处理器品牌。
AMD在一颗芯片上集成传统CPU和图形处理器GPU，这样主板年夜将不再须要北桥，任务可以灵巧地在CPU和GPU间分配。
AMD将这种异构构造称为加速处理单元，即APU。

Audio Processing Unit

声音处理器，顾名思义，处理声音数据的专用途理器。
不多说，生产APU的芯片商有好多家。
声卡里都有。

BPU

Brain Processing Unit

地平线机器人（Horizon Robotics）以BPU来命名自家的AI芯片。
地平线是一家成立于2015年的start-up，总部在北京，目标是“嵌入式人工智能环球领导者”。
地平线的芯片未来会直接应用于自己的紧张产品中，包括：智能驾驶、智能生活和智能城市。
地平线机器人的公司名随意马虎让人误解，以为是做“机器人”的，实在不然。
地平线做的不是“机器”的部分，是在做“人”的部分，是在做人工智能的“大脑”，以是，其处理器命名为BPU。
比较于国内外其他AI芯片start-up公司，地平线的第一代BPU走的相对守旧的TSMC的40nm工艺。
BPU已经被地平线申请了注册牌号，其他公司就别打BPU的主张了。

Biological Processing Unit

一个口号“21 世纪是生物学的世纪”忽悠了无数的有志青年跳入了生物领域的大坑。
实在，这句话须要这么理解，生物学的进展会推动21世纪其他学科的发展。
比如，对人脑神经系统的研究成果就会推动AI领域的发展，SNN构培养是对人脑神经元的仿照。
不管怎么说，随着韶光的推移，坑总会被填平的。
不知道生物处理器在什么韶光会有质的发展。

Bio-Recognition Processing Unit

生物特色识别现在已经不是纸上谈兵的事情了。
指纹识别已经是比来智好手机的标配，电影里的黑科技虹膜识别也上了手机，声纹识别可以支付了...不过，除了指纹识别有专门的ASIC芯片外，其他生物识别还基本都是sensor加通用cpu/dsp的方案。
不管若何，这些芯片都没占用BPU或BRPU这个宝贵位置。

CPU

CPU就不多说了，也不会有AI公司将自己的处理器命名为CPU的。
不过，CPU与AI处理器并不冲突。

首先，很多公司的AI处理器中还是会利用CPU做掌握调度。
比如，wave computing用的是Andes的CPU core；Mobileye用了好几个MIPS的CPU core；海内的某些AI芯片公司用的ARM的CPU core。

此外，在现有的移动市场的AP中，在CPU之外，再集成一两个AI加速器IP（例如针对视觉运用的DSP，见VPU部分）也是一种趋势。
例如，华为近期就在为其集成了AI加速器的麒麟970做宣扬。

其余一种趋势，做高性能打算CPU的公司也不甘错过AI的浪潮。
例如，

Adapteva。
一家做多核MIMD构造处理器的公司。
2016年tapeout的Epiphany V集成有1024个核。
相对以前的版本，针对deep learning和加密增加了特定指令。

kalrayinc。
一家做多核并行处理器的公司，有针对数据中央和自动驾驶的办理方案。
最近公布了第三代MPPA处理器“Coolidge”的操持，并融资$26 Million。
操持采取16nm FinFET工艺，集成80-160个kalray 64-bit core，以及80-160个用于机器视觉处理和深度学习打算的协处理器。

DPU

D是Deep Learning的首字母，以Deep Learning开头来命名AI芯片是一种很自然的思路。

Deep-Learning Processing Unit

深度学习处理器。
DPU并不是哪家公司的专属术语。
在学术圈，Deep Learning Processing Unit（或processor）被常常提及。
例如ISSCC 2017新增的一个session的主题便是Deep Learning Processor。
以DPU为目标的公司如下：

Deephi Tech（深鉴）。
深鉴是一家位于北京的start-up，初创团队有很深的清华背景。
深鉴将其开拓的基于FPGA的神经网络处理器称为DPU。
到目前为止，深鉴公开拓布了两款DPU：亚里士多德架构和笛卡尔架构，分别针对CNN以及DNN/RNN。
虽然深鉴号称是做基于FPGA的处理器开拓，但是从公开渠道可以看到的招聘信息以及非公开的业内互换来看，其做芯片已成事实。

TensTorrent。
一家位于Toronto的start-up，研发专为深度学习和智能硬件而设计的高性能处理器，技能职员来自NVDIA和AMD。

Deep Learning Unit

深度学习单元。
Fujitsu（富士通）最近高调宣告了自家的AI芯片，命名为DLU。
名字虽然没什么创意，但是可以看到DLU已经被富士通标了“TM”，虽然TM也没啥用。
在其公布的信息里可以看到，DLU的ISA是重新设计的，DLU的架构中包含浩瀚小的DPU（Deep Learning Processing Unit）和几个大的master core（掌握多个DPU和memory访问）。
每个DPU中又包含了16个DPE（Deep-Learning Processing Element），共128个实行单元来实行SIMD指令。
富士通估量2018财年内推出DLU。

Deep Learning Accelerator

深度学习加速器。
NVIDA宣告将这个DLA开源，给业界带来了不小的波澜。
大家都在预测开源DLA会给其他AI公司带来什么。
参考这篇吧\"大众从Nvidia开源深度学习加速器提及\公众

Dataflow Processing Unit

数据流处理器。
创立于2010年的wave computing公司将其开拓的深度学习加速处理器称为Dataflow Processing Unit(DPU)，运用于数据中央。
Wave的DPU内集成1024个cluster。
每个Cluster对应一个独立的全定制版图，每个Cluster内包含8个算术单元和16个PE。
个中，PE用异步逻辑设计实现，没有时钟旗子暗记，由数据流驱动，这便是其称为Dataflow Processor的缘由。
利用TSMC 16nm FinFET工艺，DPU die面历年夜概400mm^2，内部单口sram至少24MB，功耗约为200W，等效频率可达10GHz，性能可达181TOPS。

前面写过一篇他家DPU的剖析>>AI芯片|浅析Yann LeCun提到的两款Dataflow Chip（https://zhuanlan.zhihu.com/p/26594188）。

Data-storage Processing Unit

数据存储处理器。
深圳大普微电子开拓固态硬盘SSD主控芯片。
SSD的主控也是一个很大的市场，海内涵这个方向上奋斗的公司不少。

Digital Signal Processor

数字旗子暗记处理器。
芯片行业的人对DSP都不陌生，设计DSP的公司大概多，TI，Qualcomm，CEVA，Tensilica，ADI，Freescale等等，都是大公司，此处不多做先容。
比较于CPU，DSP通过增加指令并行度来提高数字打算的性能，如SIMD、VLIW、SuperScalar等技能。
面对AI领域新的打算办法（例如CNN、DNN等）的寻衅，DSP公司也在马一直蹄地改造自己的DSP，推出支持神经网络打算的芯片系列。
在后面VPU的部分，会先容一下针对Vision运用的DSP。
和CPU一样，DSP的技能很永劫光以来都节制在外国公司手里，海内也不乏兢兢业业在这方向努力的科研院所，如清华大学微电子所的Lily DSP（VLIW架构，有独立的编译器），以及国防科大的YHFT-QDSP和矩阵2000。
但是，也有臭名昭著的“汉芯”。

EPU

Emotion Processing Unit

Emoshape 并不是这两年才推出EPU的，号称是环球首款感情合成（emotion synthesis）引擎，可以让机器人具有感情。
但是，从官方渠道看，EPU本身并不繁芜，也不须要做任务量巨大的神经网络打算，是基于MCU的芯片。
结合运用API以及云真个增强学习算法，EPU可以让机器能够在感情上理解它们所读或所看的内容。
结合自然措辞天生(NLG)及WaveNet技能，可以让机器个性化的表达各种感情。
例如，一部能够朗读的Kindle，其语音将根据所读的内容充满不同的感情状态。

FPU

先说一个最常用的FPU缩写：Floating Point Unit。
浮点单元，不多做阐明了。
现在高性能的CPU、DSP、GPU内都集成了FPU做浮点运算。

Force Processing Unit：原力处理器，助你成为绝地武士。
酷！

GPU

Graphics Processing Unit

图形处理器。
GPU原来最大的需求来自PC市场上各种游戏对图形处理的需求。
但是随着移动设备的升级，在移动端也逐渐发展起来。

NVIDIA。
提及GPU，毫无疑问现在的老大是NVIDIA。
这家成立于1993年的芯片公司一贯致力于设计各种GPU：针对个人和游戏玩家的GeForce系列，针对专业事情站的Quadro系列，以及针对做事器和高性能运算的Tesla系列。
随着AI的发展，NVIDIA在AI运用方面不断发力，推出了针对自动驾驶的DRIVE系列，以及专为AI打造的VOLTA架构。
特殊提一下VOLTA，今年5月份，NVIDIA发布的Tesla V100采取TSMC 12nm工艺，面积竟然815mm^2，号称干系研发用度高达30亿美元。
得益于在AI领域的一家独大，NVIFIA的股价在过去一年的韶光里狂涨了300%。
末了，也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。

AMD。
这几年NVIDIA的火爆，都快让大家忘了AMD的存在了。
AMD是芯片行业中非常古老的一家芯片公司，成立于1969年，比NVIDIA要早很多年。
AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司（暴露年事地说，本人的第一台PC的显卡便是ATI的）。
本文第一个词条APU便是AMD家的产品。
AMD新出的MI系列GPU将目标对准AI。

在移动端市场，GPU被三家公司瓜分，但是也阻挡不了新的竞争者杀入。

ARM家的Mali。
Mali不是ARM的自创GPU品牌，来自于ARM于2006年收购的Falanx公司。
Falanx最初的GPU是面向PC市场的，但是根本就无法参与到NVIDIA和ATI的竞争中去，于是转向移动市场；并且Falanx最初的GPU的名字也不是Mali，而是Maliak，为了好记，改为Mali，来自罗马尼亚文，意思是small，而不是我们熟习的吃蘑菇救公主的超级玛丽（SuperMALI）。

Imagination的PowerVR。
紧张客户是苹果，以是紧张精力都在支持苹果，对其他客户的支持不敷。
但是，苹果溘然宣告放弃PVR转为自研，对Imagination打击不小，股价大跌六成。
Imagination现在正在寻求整体出售，土财快追，但是，美国未必批。

Qualcomm的Adreno。
技能来自于AMD收购ATI后出售的移动GPU品牌Imageon。
故意思的是，名字改自于ATI的有名GPU品牌Radeon；

VeriSilicon的Vivante。
Vivante（图芯）是一家成立于2004年的以做嵌入式GPU为主的芯片公司，于2015年被VSI收购。
Vivante的市场霸占率较低。
这里多加一段小八卦，Vivante的创始人叫戴伟进，VSI的创始人叫戴伟民，一句话对这次收购进行总结便是，戴家老大收购了戴家老二。
哦，对了，戴家还有一个三妹戴伟立，创立的公司名号更响亮：Marvell。

Samsung的。
。
。
哦，三星没有自己的GPU。
作为一个IDM巨子，对付没有自家的GPU，三星一贯铭心镂骨。
三星也宣告要研发自家的移动端GPU芯片，不过要等到2020年了。

再大略补充海内的两家开拓GPU的公司：

上海兆芯。
兆芯是VIA（威盛）分离出来的。
兆芯于2016年针对移动端出了一款GPU芯片ZX-2000，名字有点大略直接。
紧张技能来源于威盛授权，GPU核心技能来自收购的美国S3 Graphics。

长沙景嘉微电子。
于2014年推出一款GPU芯片JM5400。
这是一家有国防科大背景的公司，与龙芯为互助伙伴，芯片紧张运用在军用飞机和神舟飞船上。

Graph Streaming Processor

图形流处理器。
这是ThinCI（取意think-eye）提出的缩写。
ThinCI是一家致力于打造deep learning和computer vision芯片的start-up，由4名Intel前员工创立于2010年，总部在Sacramento，在印度也有研发职员。
ThinCI的视觉芯片瞄准了自动驾驶运用，投资方有天下顶级汽车零部件供应商公司日本电装DENSO。
在刚结束的hotchip会议上，ThinCI先容了他们的GSP（于是本文作者将ThinCI从VPU部分移到了这里），利用了多种构造性技能来实现任务级、线程级、数据级和指令级的并行。
GSP利用TSMC 28nm HPC+工艺，功耗估量2.5W。

HPU

Holographic Processing Unit

全息处理器。
Microsoft专为自家Hololens运用开拓的。
第一代HPU采取28nm HPC工艺，利用了24个Tensilica DSP并进行了定制化扩展。
HPU支持5路cameras、1路深度传感器（Depth sensor）和1路动作传感器（Motion Sensor）。
Microsoft 在最近的CVPR 2017上宣告了HPU2的一些信息。
HPU2将搭载一颗支持DNN的协处理器，专门用于在本地运行各种深度学习。
指的一提的是，HPU是一款为特定运用所打造的芯片，这个做产品的思路可以学习。
听说Microsoft评测过Movidius（见VPU部分）的芯片，但是以为无法知足算法对性能、功耗和延迟的哀求，所有才有了HPU。

IPU

Intelligence Processing Unit

智能处理器。
以IPU命名芯片的有两家公司。

Graphcore。
Graphcore公司的IPU是专门针对graph的打算而打造的。
轻微说说Graph，Graphcore认为Graph是知识模型及相应算法的非常自然的表示，以是将Graph作为机器智能的根本表示方法，既适用于神经网络，也适用于贝叶斯网络和马尔科夫场，以及未来可能涌现的新的模型和算法。
Graphcore的IPU一贯比较神秘，直到近期才有一些细节的信息发布。
比如：16nm，同构多核（>1000）架构，同时支持training和inference，利用大量片上sram，性能优于Volta GPU和TPU2，估量2017年底会有产品发布，等等。
多八卦一点，Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。
关于IPU更细节的描述，可以看唐博士的微信公号的一篇文章，传输门：解密又一个xPU：Graphcore的IPU。

Mythic。
其余一家刚融了$9.3 million的start-up公司Mythic也提到了IPU：“Mythic's intelligence processing unit (IPU) adds best-in-class intelligence to any device”。
和现在盛行的数字电路平台方案比较，Mythic号称可以将功耗降到1/50。
之以是这么有信心，是由于他们利用的“processing in memory”构造。
关于Processing in Memory，又可以大写一篇了，这里就不扩展了。
有兴趣的，可以google一下“UCSB 谢源”，从他的研究开始理解。

Image Cognition Processor

图像认知处理器ICP，加拿大公司CogniVue开拓的用于视觉处理和图像认知的IP。
跑个题，CogniVue一开始是Freescale的IP供应商，后来于2015年被Freescale收购以进一步加强ADAS芯片的整合开拓；随后，Freescale又被NXP 118亿美元拿下；还没完，高通近400亿美元吞并了NXP。
现在NXP家的ADAS SOC芯片S32V系列中，就用到了两个ICP IP。

Image Processing Unit

图像处理器。
一些SOC芯片中将处理静态图像的模块称为IPU。
但是，IPU不是一个常用的缩写，更常见的处理图像旗子暗记的处理器的缩写为下面的ISP。

Image Signal Processor

图像旗子暗记处理器。
这个话题也不是一个小话题。
ISP的功能，大略的来说便是处理camera等摄像设备的输出旗子暗记，实现降噪、Demosaicing、HDR、色彩管理等功能。
以前是各种数码相机、单反相机中的标配。
Canon、Nikon、Sony等等，你能想到的出数码相机的公司险些都有自己的ISP。
进入手机拍照时期，人们对拍照摄像的哀求也越来越高，ISP必不可少。
说回AI领域，camera采集图像数据，也要先经由ISP进行处理之后，再由视觉算法（运行在CPU、GPU或ASIC加速器上的）进行剖析、识别、分类、追踪等进一步处理。
大概，随着AI技能发展，ISP的一些操作会直接被end-2-end的视觉算法统一。

JPU

请体谅鄙人的词汇量，没什么新奇的想法。
。
。
。

KPU

Knowledge Processing Unit

嘉楠耘智（canaan）号称2017年将发布自己的AI芯片KPU。
嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器，紧张供应异构、实时、离线的人工智能运用做事。
这又是一家向AI领域扩展的不差钱的矿机公司。
作为一家做矿机芯片（自称是区块链专用芯片）和矿机的公司，嘉楠耘智累计得到近3亿元融资，估值近33亿公民币。
听说嘉楠耘智近期将启动股改并推进IPO。

另：Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的，早在10年前就已经有论文和书本讲到这个词汇了。
只是，现在嘉楠耘智将KPU申请了注册牌号。

LPU

谁给我点灵感？

MPU

Micro Processing Unit

微处理器。
MPU，CPU，MCU，这三个观点差不多，知道就行了。

Mind Processing Unit

意念处理器，听起来不错。
“解读脑电波”，“意念互换”，永恒的科幻话题。
如果采集大量人类“思考”的脑电波数据，通过深度学习，再加上强大的意念处理器MPU，不知道能否成为mind-reader。
如果道德伦理上无法接管，先理解一下家里宠物猫宠物狗的“想法”也是可以的吗。
再进一步，从mind-reader发展为mind-writer，持续升级之后，是不是就可以成为冰与火中的Skinchanger？

Mobile Processing Unit：移动处理器，彷佛没什么意思。

Motion Processing Unit：运动处理器。
解析人类、动物的肌肉运动？

题外话：并不是所有的xPU都是处理器，比如有个MPU，是Memory Protection Unit的缩写，是内存保护单元，是ARM核中配备的具有内存区域保护功能的模块。

NPU

Neural-Network Processing Unit

与GPU类似，神经网络处理器NPU已经成为了一个通用名词，而非某家公司的专用缩写。
由于神经网络打算的类型和打算量与传统打算的差异，导致在进行NN打算的时候，传统CPU、DSP乃至GPU都有算力、性能、能效等方面的不敷，以是引发了专为NN打算而设计NPU的需求。
这里罗列几个以NPU名义发布过产品的公司，以及几个学术圈的神经网络加速器。

中星微电子（Vimicro）的星光智能一号。
中星微于2016年抢先发布了“星光智能一号”NPU。
但是，这不是一个专为加速Neural Network而开拓的处理器。
业内都知道其内部集成了多个DSP核（其称为NPU core），通过SIMD指令的调度来实现对CNN、DNN的支持。
以这个逻辑，彷佛很多芯片都可以叫NPU，其他以DSP为打算核心的SOC芯片的命名和宣扬都相对守旧了。

Kneron。
这是一家位于San Diego的start-up公司，针对IOT运用领域做deep learning IP开拓。
Kneron开拓的NPU实现了39层CNN，28nm下的功耗为0.3W，能效200GFLOPs/W。
其主页上给出的另一个能效数据是600GOPs/W。
此外，Kneron同时也在FPGA开拓云真个硬件IP。
据可靠，Kneron也要在中国大陆建立研发部门了，地点涉及北京、上海、深圳。

VeriSilicon（芯原）的VIP8000。
VSI创立于2001年。
VSI于今年5月以神经网络处理器IP的名义发布了这款代号VIP8000的IP。
从其公布的“VeriSilicon’s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second”来看，这款芯片利用的并不是其DSP core，而是内置了其2015年收购的Vivante的GPU core。
按照VSI的说法，VIP8000在16nm FinFET工艺下的打算力超过3 TMAC/s，能效高于1.5 GMAC/s/mW。

DNPU-Deep Neural-Network Processing Unit。
DNPU来自于KAIST在ISSCC2017上揭橥的一篇文章。
我把DNPU当做是NPU的一种别名，毕竟现在业内做的支持神经网络打算的芯片没有只支持“非深度”神经网络的。
关于DNPU可以参考“从ISSCC Deep Learning处理器论文到人脸识别产品”。

Eyeriss。
MIT的神经网络项目，针对CNN的进行高能效的打算加速设计。

Thinker。
清华微电子所设计的一款可重构多模态神经打算芯片，可以平衡CNN和RNN在打算和带宽之间的资源冲突。

Neural/Neuromorphic Processing Unit

神经/神经形态处理器。
这和上面的神经网络处理器还有所不同。
而且，一样平常也不以“处理器”的名字涌现，更多的时候被称为“神经形态芯片（Neuromorphic Chip）”或者是“类脑芯片（Brain-Inspired Chip）”。
这类AI芯片不是用CNN、DNN等网络形式来做打算，而因此更类似于脑神经组成构造的SNN（Spiking Neural Network）的形式来进行打算。
随便列几个，都不是“xPU”的命名办法。

Qualcomm的Zeroth。
高通几年前将Zeroth定义为一款NPU，合营以软件，可以方便的实现SNN的打算。
但是，NPU彷佛不见了踪影，现在只剩下了同名的机器学习引擎Zeroth SDK。

IBM的TrueNorth。
IBM2014年公布的TrueNorth。
在一颗芯片上集成了4096个并行的core，每个core包含了256个可编程的神经元neurons，一共1百万个神经元。
每个神经元有256个突触synapses，共256 Mlillion。
TrueNorth利用了三星的28nm的工艺，共5.4 billion个晶体管。

BrainChip的SNAP（Spiking Neuron Adaptive Processor ）。
已经有了赌场的运用。

GeneralVision的CM1K、NM500 chip，以及NeuroMem IP。
这家公司的CM1K芯片有1k个神经元，每个神经元对应256Byte存储。
虽然无法和强大的TrueNorth相提并论，但是已有客户运用。
并且，供应BrainCard，上面有FPGA，并且可以直接和Arduino以及Raspberry Pi连接。

Knowm。
这家start-up在忆阻器（memristor）技能根本上做“processing in memory”的AI芯片研发。
不过，与前面提到的Mythic（IPU部分）不同的是，Known做的是类脑芯片。
Knowm所用的关键技能是一种称为热力学内存(kT-RAM)的memory，是根据AHaH理论(Anti-Hebbian and Hebbian)发展而来。

Koniku。
成立于2014年的start-up，要利用生物神经元来做打算，\公众Biological neurons on a chip\"大众。
主页在倒计时，可能要有主要进展公布，期待。

OPU

Optical-Flow Processing Unit。
光流处理器。
有须要用专门的芯片来实现光流算法吗？

不知道，但是，用ASIC IP来做加速该当是要的。

PPU

Physical Processing Unit

物理处理器。
要先阐明一下物理运算，就知道物理处理器是做什么的了。
物理打算，便是仿照一个物体在真实天下中该当符合的物理定律。
详细的说，可以使虚拟天下中的物体运动符合真实天下的物理定律，可以使游戏中的物体行为更加真实，例如布料仿照、毛发仿照、碰撞侦测、流体力学仿照等。
开拓物理打算引擎的公司有那么几家，利用CPU来完成物理打算，支持多种平台。
但是，Ageia该当是唯一一个利用专用芯片来加速物理打算的公司。
Ageia于2006年发布了PPU芯片PhysX，还发布了基于PPU的物理加速卡，同时供应SDK给游戏开拓者。
2008年被NVIDIA收购后，PhysX加速卡产品被逐渐取消，现在物理打算的加速功能由NVIDIA的GPU实现，PhysX SDK被NVIDIA重新打造。

QPU

Quantum Processing Unit

量子处理器。
量子打算机也是近几年比较火的研究方向。
作者承认在这方面所知甚少。
可以关注这家成立于1999年的公司D-Wave System。
DWave大概每两年可以将其QPU上的量子位个数翻倍一次。

RPU

Resistive Processing Unit

阻抗处理单元RPU。
这是IBM Watson Research Center的研究职员提出的观点，真的是个处理单元，而不是处理器。
RPU可以同时实现存储和打算。
利用RPU阵列，IBM研究职员可以实现80TOPS/s/W的性能。

Ray-tracing Processing Unit

光芒追踪处理器。
Ray tracing是打算机图形学中的一种渲染算法，RPU是为加速个中的数据打算而开拓的加速器。
现在这些打算都是GPU的事情了。

SPU

Streaming Processing Unit

流处理器。
流处理器的观点比较早了，是用于处理视频数据流的单元，一开始涌如今显卡芯片的构造里。
可以说，GPU便是一种流处理器。
乃至，还曾经存在过一家名字为“Streaming Processor Inc”的公司，2004年创立，2009年，随着创始人兼董事长被挖去NVIDIA当首席科学家，SPI关闭。

Speech-Recognition Processing Unit

语音识别处理器，SPU或SRPU。
这个缩写还没有公司拿来利用。
现在的语音识别和语义理解紧张是在云端实现的，比如科大讯飞。
科大讯飞最近推出了一个翻译机，可以将语音传回云端，做实时翻译，内部硬件没有去专门理解。
和语音识别干系的芯片如下：

启英泰伦（chipintelli）。
于2015年11月在成都成立。
该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片，可实现单芯片本地离线大词汇量识别。

MIT项目。
今年年初媒体爆过MIT的一款黑科技芯片，实在便是MIT在ISSCC2017上揭橥的paper里的芯片，也是可以实现单芯片离线识别上k个单词。
可以参考阅读“剖析一下MIT的智能语音识别芯片”。

云知声（UniSound）。
云知声是一家专攻智能语音识别技能的公司，成立于2012年6月，总部在北京。
云知声刚刚得到3亿公民币计策投资，个中一部分将用来研发其稍早公布的AI芯片操持，命名“UniOne”。
据官方透漏，UniOne将内置DNN处理单元，兼容多麦克风、多操作系统。
并且，芯片将以模组的形式供应给客户，让客户直接拥有一整套云端芯的做事。

Smart Processing Unit：聪明的处理器，听起来很Q。

Space Processing Unit

空间处理器，高大上，有没有。
全景摄像，全息成像，这些还都是处理我们的生活空间。
当面对广阔的太阳系、银河系这些宇宙空间，是不是须要新的更强大的专用途理器呢？飞向M31仙女座星系，对抗阴郁武士，只靠x86估计是弗成的。

TPU

Tensor Processing Unit

Google的张量处理器。
2016年AlphaGo打败李世石，2017年AlphaGo打败柯洁，两次人工智能催化事宜给芯片行业带来的冲击无疑便是TPU的涌现和解密。
Google在2017年5月的开拓者I/O大会上正式公布了TPU2，又称Cloud TPU。
比较于TPU1，TPU2既可以用于training，又可以用于inference。
TPU1利用了脉动阵列的流处理构造，详细的细节可以参考如下的文章>>Google TPU 揭密。

UPU

Universe Processing Unit：宇宙处理器。
和Space Processing Unit比较，你更喜好哪个？

VPU

Vision Processing Unit

视觉处理器VPU也有希望成为通用名词。
作为现今最火热的AI运用领域，打算机视觉的发展的确能给用户带来前所未有的体验。
为了处理打算机视觉运用中碰着的超大打算量，多家公司正在为此设计专门的VPU。

Movidius（已被Intel收购）。
Movidius成立于2006年，总部位于硅谷的San Mateo，创始人是两个爱尔兰人，以是在爱尔兰有分部。
Movidius早期做的是将旧电影转为3D电影的业务，后期开始研发运用于3D渲染的芯片，并开始运用于打算机视觉运用领域（这解释：1，芯片行业才是高技能含量、高门槛、高代价的行业；2，初创公司要随着发展调度自己的计策）。

Movidius开拓的Myriad系列VPU专门为打算机视觉进行优化，可以用于 3D 扫描建模、室内导航、360°全景视频等更前沿的打算机视觉用场。
例如，2014年，谷歌的Project Tango项目用 Myriad 1帮助打造室内三维舆图；2016年，大疆的“精灵4”和“御”都采取了Movidius 的 Myriad 2芯片。
采取TSMC 28nm工艺的Myriad2中集成了12个向量处理器SHAVE (Streaming Hybrid Architecture Vector Engine)。
按照Movidius的说法，SHAVE是一种稠浊型流处理器，集成了GPU、 DSP和RISC的优点，支持8/16/32 bit定点和16/32 bit浮点打算，而且硬件上支持稀疏数据构造。
此外，Myriad2中有两个RISC核以及video硬件加速器。
据称，Myriad2可以同时处理多个视频流。

最新，美国韶光8月28日，Movidius宣告推出新一代VPU：Myriad X。
与上一代Myriad2比，Myriad X将集成DNN加速器：神经打算引擎（Neural Compute Engine），支持浮点16bit和定点8bit。
据称，DNN推理吞吐量能达到1TOPS，而理论运算量能达到4+ TOPS。
Myriad X有四个128位VLIW矢量处理器，支持最新的LPDDR4，并且支持4K硬件编码，支持USB3.1和PCIe3.0。
工艺上，利用TSMC 16nm。

Inuitive。
一家以色列公司，供应3D图像和视觉处理方案，用于AR/VR、无人机等运用处景。
Inuitive的下一代视觉处理器NU4000采取28nm工艺，选择利用CEVA的XM4 DSP，并集成了深度学习处理器（自己开拓？或者购买IP？）和深度处理引擎等硬件加速器。

DeepVision。
一家总部位于Palo Alto的start-up，为嵌入式设备设计和开拓低功耗VPU，以支持深度学习、CNN以及传统的视觉算法，同时供应实时处理软件。

Visual Processing Unit

这里是visual，不是vision。
ATI一开始称自家显卡上的芯片为VPU，后来见贤思齐，都改叫GPU了。

Video Processing Unit

视频处理器。
处理动态视频而不是图像，例如进行实时编解码。

Vector Processing Unit

向量处理器。
标量处理器、向量处理器、张量处理器，这因此处理器处理的数据类型进行的划分。
现在的CPU已经不再是纯挚的标量处理器，很多CPU都集成了向量指令，最范例的便是SIMD。
向量处理器在超级打算机和高性能打算中，扮演着重要角色。
基于向量处理器研发AI领域的专用芯片，也是很多公司的选项。
例如，前面刚提到Movidius的Myriad2中，就包含了12个向量处理器。

Vision DSP

针对AI中的打算机视觉运用，各家DSP公司都发布了DSP的Vision系列IP。
大略罗列如下：

CEVA的XM4，最新的XM6 DSP。
除了可以连接支持自家的硬件加速器HWA（CEVA Deep Neural Network Hardware Accelerator )，也可以支持第三方开拓的HWA。
前面提到的Inuitive利用了XM4。
可以参考“处理器IP厂商的机器学习方案 - CEVA”。

Tensilica（2013年被Cadence以3.8亿美元收购）的P5、P6，以及最新的C5 DSP。
一个最大的特色便是可以用TIE措辞来定制指令。
前面微软的HPU中利用他家的DSP。
可以参考“神经网络DSP核的一桌麻将终于凑齐了”。

Synopsys的EV5x和EV6x系列DSP。
可以参考“处理器IP厂商的机器学习方案 - Synopsys”。

Videantis的v-MP4系列。
Videantis成立于1997年，总部位于德国汉诺顿。
v-MP4虽然能做很多机器视觉的任务，但还是传统DSP增强设计，并没有针对神经网络做分外设计。

WPU

Wearable Processing Unit

一家印度公司Ineda Systems在2014年大肆宣扬了一下他们针对IOT市场推出的WPU观点，得到了高通和三星的注资。
Ineda Systems研发的这款“Dhanush WPU”分为四个级别，可适应普通级别到高端级别的可穿着设备的运算需求，可以让可穿着设备的电池达到30天的持续续航、减少10x倍的能耗。
但是，统统彷佛在2015年戛然而止，没有了任何。
只在主页的最下端有笔墨显示，Ineda将WPU申请了注册牌号。
有关WPU的信息只有大概构造，哦，对了，还有一个美国专利。

Wisdom Processing Unit

聪慧处理器。
这个WPU听起来比较高大上，拿去用，不谢。
不过，有点“脑白金”的味道。

XPU

不如干脆就叫XPU，X可以表示未知，统统皆有可能，类似X Man，X File，SpaceX。

就在这篇快扫尾的时候，获悉在今年的hotchip会议上，Baidu公开了其FPGA Accelerator的名字，就叫XPU。
不过，这个X指的是Xilinx。
还没有详细细节可说，拭目以待吧。

YPU

Y？没想法，须要乞助各位读者了。

ZPU

Zylin CPU

挪威公司Zylin的CPU的名字。
为了在资源有限的FPGA上能拥有一个灵巧的微处理器，Zylin开拓了ZPU。
ZPU是一种stack machine（堆栈构造机器），指令没有操作数，代码量很小，并有GCC工具链支持，被称为“The worlds smallest 32 bit CPU with GCC toolchain”。
Zylin在2008年将ZPU在opencores上开源。
有组织还将Arduino的开拓环境进行了修正给ZPU用。

其他非xPU的AI芯片

寒武纪科技（Cambricon）

中科院背景的寒武纪并没有用xPU的办法命名自家的处理器。
媒体的文章既有称之为深度学习处理器DPU的，也有称之为神经网络处理器NPU的。
陈氏兄弟的DianNao系列芯片架构连续几年在各大顶级会议上刷了好几篇best paper，为其公司的成立奠定了技能根本。
寒武纪Cambricon-X指令集是其一大特色。
目前其芯片IP已扩大范围授权集成得手机、安防、可穿着设备等终端芯片中。
据流传，2016年就已拿到一亿元订单。
在一些分外领域，寒武纪的芯片将在海内具有绝对的霸占率。
最新宣布显示，寒武纪又融了1亿美元。

Intel

Intel在智好手机芯片市场的失落利，让其痛定思痛，一改当年的犹豫，在AI领域的几个运用方向上接连发了狠招。
什么狠招呢，便是三个字：买，买，买。
在数据中央/云打算方面，167亿美金收购的Altera，4亿美金收购Nervana；在移动真个无人机、安防监控等方面，收购Movidius（未公布收购金额）；在ADAS方面，153亿美金收购Mobileye。
Movidius在前面VPU部分进行了先容，这里补充一下Nervana和Mobileye（基于视觉技能做ADAS方案，不是纯挚的视觉处理器，以是没写在VPU部分）。

Nervana

Nervana成立于2014年，总部在SanDiego，以供应AI全栈软件平台Nervana Cloud为紧张业务。
和硬件扯上关系的是，Nervana Cloud除了支持CPU、GPU乃至Xeon Phi等后台硬件外，还供应有自家定制的Nervana Engine硬件架构。
根据 The Next Platform的宣布“Deep Learning Chip Upstart Takes GPUs to Task”，Nervana Engine 利用TSMC 28nm工艺，算力55 TOPS。
宣布发布不到24小时，就被Intel收购了，全部48位员工并入Intel。
Intel以Nervana Engine为核心打造了Crest Family系列芯片。
项目代码为“Lake Crest”的芯片是第一代Nervana Engine，“Knights Crest”为第二代。
哦，对了，Nervana的CEO在创立Nervana之前，在高通卖力一个神经形态打算的研究项目，便是上面提到的Zeroth。

Mobileye

一家基于打算机视觉做ADAS的以色列公司，成立于1999年，总部在耶路撒冷。
Mobileye为自家的ADAS系统开拓了专用的芯片——EyeQ系列。
2015年，Tesla宣告正在利用Mobileye的芯片（EyeQ3）和方案。
但是，2016年7月，Tesla和Mobileye宣告将终止互助。
随后，Mobile于2017年被Intel以$153亿收入囊中，现在是Intel的子公司。
Mobileye的EyeQ4利用了28nm SOI工艺，个顶用了4个MIPS的大CPU core做主控和算法调度以及一个MIPS的小CPU core做外设掌握，集成了10个向量处理器（称为VMP，Vector Microcode Processor）来做数据运算（有点眼熟，回去看看Movidius部分）。
Mobileye的下一代EyeQ5将利用7nm FinFET工艺，集成18个视觉处理器，并且为了达到自动驾驶的level 5增加了硬件安全模块。

比特大陆Bitmain

比特大陆设计的全定制矿机芯片性能优胜，让其大赚特赚。
在卖矿机芯片之余，比特大陆自己也挖挖矿。
总之，芯片设计能力非凡、土豪有钱的比特大陆对标NVIDIA的高端GPU芯片，任性地用16nm的工艺开启了自家的AI芯片之路。
芯片测试已有月余，据传功耗60W旁边，同步在招揽产品、市场职员。
最近的推文爆出了这款AI芯片的名字：“智子（Sophon）”，来自著名的《三体》，可见野心不小，相信不就即将正式发布。

华为&海思

市场期待华为的麒麟970已经很永劫光了，内置AI加速器已成公开的秘密，据传用了寒武纪的IP，就等秋季发布会了。
还是据传，海思的HI3559中用了自己研发的深度学习加速器。

苹果

苹果正在研发一款AI芯片，内部称为“苹果神经引擎”(Apple Neural Engine)。
这个大家并不惊异，大家想知道的便是，这个ANE会在哪款iphone中用上。

高通

高通除了掩护其基于Zeroth的软件平台，在硬件上也动作不断。
收购NXP的同时，据传高通也一贯在和Yann LeCun以及Facebook的AI团队保持互助，共同开拓用于实时推理的新型芯片。

还有一些诸如Leapmind、REM这样的start-up，就不一一列举。

结束语

AI芯片，百家争鸣，机遇伴随寻衅，本日你争我夺，来日诰日就可能并购。
随着这些“xPU”的不断推陈出新，26个字母利用殆尽。
但是，换个角度，实在也没紧要，索性起个独特的名字。
或者，抢先布局“processing in memory”路线，先占个“xxxRAM”或“xxxMem”名字。

末了，安利一下清华汪玉老师的实验室做的网页NN Accelerator | NICS EFC Lab>>https://nicsefc.ee.tsinghua.edu.cn/projects/neural-network-accelerator/

网络了各种公开的神经网络加速器的数据，并进行了可视化，如图：

作者简介