https://zhuanlan.zhihu.com/AIInside
作者:谭洪贺
献给:对AI芯片行业有兴趣、想快速理解干系公司和产品的各种读者。不限芯片工程师。

致敬:向所有AI芯片领域的初创公司致敬,为你们免费打广告;向共同奋斗在AI芯片start-up的芯片工程师致敬,和你们一起前行。
随着AI观点火爆环球,做AI芯片的公司也层出不穷。为了让市场和不雅观众能记住自家的产品,各家在芯片命名方面都下了点功夫,既要独特,又要和公司产品契合,还要朗朗上口,也要随意马虎让人记住。比较故意思的是,很多家都采取了“xPU”的命名办法。
本文就来盘点一下目前各种“xPU”命名AI芯片,以及芯片行业里的各种“xPU”缩写,供吃瓜群众消遣,也供后来者起名参考。此外,除了“xPU”命名办法,本文也扩展了一些“xxP”办法的以Processor命名的芯片或IP。此外的此外,拍脑袋拍出了一些xPU命名备选方案,用下划线标示,并欢迎读者一起来开脑洞。
有心在AI芯片发力的公司,赶紧先抢个字母吧。:)
APU
Accelerated Processing Unit
目前还没有AI公司将自己的处理器命名为APU,由于AMD早就用过APU这个名字了。APU是AMD的一个处理器品牌。AMD在一颗芯片上集成传统CPU和图形处理器GPU,这样主板年夜将不再须要北桥,任务可以灵巧地在CPU和GPU间分配。AMD将这种异构构造称为加速处理单元,即APU。
Audio Processing Unit
声音处理器,顾名思义,处理声音数据的专用途理器。不多说,生产APU的芯片商有好多家。声卡里都有。
BPU
Brain Processing Unit
地平线机器人(Horizon Robotics)以BPU来命名自家的AI芯片。地平线是一家成立于2015年的start-up,总部在北京,目标是“嵌入式人工智能环球领导者”。地平线的芯片未来会直接应用于自己的紧张产品中,包括:智能驾驶、智能生活和智能城市。地平线机器人的公司名随意马虎让人误解,以为是做“机器人”的,实在不然。地平线做的不是“机器”的部分,是在做“人”的部分,是在做人工智能的“大脑”,以是,其处理器命名为BPU。比较于国内外其他AI芯片start-up公司,地平线的第一代BPU走的相对守旧的TSMC的40nm工艺。BPU已经被地平线申请了注册牌号,其他公司就别打BPU的主张了。
Biological Processing Unit
一个口号“21 世纪是生物学的世纪”忽悠了无数的有志青年跳入了生物领域的大坑。实在,这句话须要这么理解,生物学的进展会推动21世纪其他学科的发展。比如,对人脑神经系统的研究成果就会推动AI领域的发展,SNN构培养是对人脑神经元的仿照。不管怎么说,随着韶光的推移,坑总会被填平的。不知道生物处理器在什么韶光会有质的发展。
Bio-Recognition Processing Unit
生物特色识别现在已经不是纸上谈兵的事情了。指纹识别已经是比来智好手机的标配,电影里的黑科技虹膜识别也上了手机,声纹识别可以支付了...不过,除了指纹识别有专门的ASIC芯片外,其他生物识别还基本都是sensor加通用cpu/dsp的方案。不管若何,这些芯片都没占用BPU或BRPU这个宝贵位置。
CPU
CPU就不多说了,也不会有AI公司将自己的处理器命名为CPU的。不过,CPU与AI处理器并不冲突。
首先,很多公司的AI处理器中还是会利用CPU做掌握调度。比如,wave computing用的是Andes的CPU core;Mobileye用了好几个MIPS的CPU core;海内的某些AI芯片公司用的ARM的CPU core。
此外,在现有的移动市场的AP中,在CPU之外,再集成一两个AI加速器IP(例如针对视觉运用的DSP,见VPU部分)也是一种趋势。例如,华为近期就在为其集成了AI加速器的麒麟970做宣扬。
其余一种趋势,做高性能打算CPU的公司也不甘错过AI的浪潮。例如,
Adapteva。一家做多核MIMD构造处理器的公司。2016年tapeout的Epiphany V集成有1024个核。相对以前的版本,针对deep learning和加密增加了特定指令。
kalrayinc。一家做多核并行处理器的公司,有针对数据中央和自动驾驶的办理方案。最近公布了第三代MPPA处理器“Coolidge”的操持,并融资$26 Million。操持采取16nm FinFET工艺,集成80-160个kalray 64-bit core,以及80-160个用于机器视觉处理和深度学习打算的协处理器。
DPU
D是Deep Learning的首字母,以Deep Learning开头来命名AI芯片是一种很自然的思路。
Deep-Learning Processing Unit
深度学习处理器。DPU并不是哪家公司的专属术语。在学术圈,Deep Learning Processing Unit(或processor)被常常提及。例如ISSCC 2017新增的一个session的主题便是Deep Learning Processor。以DPU为目标的公司如下:
Deephi Tech(深鉴)。深鉴是一家位于北京的start-up,初创团队有很深的清华背景。深鉴将其开拓的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开拓布了两款DPU:亚里士多德架构和笛卡尔架构,分别针对CNN以及DNN/RNN。虽然深鉴号称是做基于FPGA的处理器开拓,但是从公开渠道可以看到的招聘信息以及非公开的业内互换来看,其做芯片已成事实。
TensTorrent。一家位于Toronto的start-up,研发专为深度学习和智能硬件而设计的高性能处理器,技能职员来自NVDIA和AMD。
Deep Learning Unit
深度学习单元。Fujitsu(富士通)最近高调宣告了自家的AI芯片,命名为DLU。名字虽然没什么创意,但是可以看到DLU已经被富士通标了“TM”,虽然TM也没啥用。在其公布的信息里可以看到,DLU的ISA是重新设计的,DLU的架构中包含浩瀚小的DPU(Deep Learning Processing Unit)和几个大的master core(掌握多个DPU和memory访问)。每个DPU中又包含了16个DPE(Deep-Learning Processing Element),共128个实行单元来实行SIMD指令。富士通估量2018财年内推出DLU。
Deep Learning Accelerator
深度学习加速器。NVIDA宣告将这个DLA开源,给业界带来了不小的波澜。大家都在预测开源DLA会给其他AI公司带来什么。参考这篇吧\"大众从Nvidia开源深度学习加速器提及\公众
Dataflow Processing Unit
数据流处理器。创立于2010年的wave computing公司将其开拓的深度学习加速处理器称为Dataflow Processing Unit(DPU),运用于数据中央。Wave的DPU内集成1024个cluster。每个Cluster对应一个独立的全定制版图,每个Cluster内包含8个算术单元和16个PE。个中,PE用异步逻辑设计实现,没有时钟旗子暗记,由数据流驱动,这便是其称为Dataflow Processor的缘由。利用TSMC 16nm FinFET工艺,DPU die面历年夜概400mm^2,内部单口sram至少24MB,功耗约为200W,等效频率可达10GHz,性能可达181TOPS。
前面写过一篇他家DPU的剖析>>AI芯片|浅析Yann LeCun提到的两款Dataflow Chip(https://zhuanlan.zhihu.com/p/26594188)。
Data-storage Processing Unit
数据存储处理器。深圳大普微电子开拓固态硬盘SSD主控芯片。SSD的主控也是一个很大的市场,海内涵这个方向上奋斗的公司不少。
Digital Signal Processor
数字旗子暗记处理器。芯片行业的人对DSP都不陌生,设计DSP的公司大概多,TI,Qualcomm,CEVA,Tensilica,ADI,Freescale等等,都是大公司,此处不多做先容。比较于CPU,DSP通过增加指令并行度来提高数字打算的性能,如SIMD、VLIW、SuperScalar等技能。面对AI领域新的打算办法(例如CNN、DNN等)的寻衅,DSP公司也在马一直蹄地改造自己的DSP,推出支持神经网络打算的芯片系列。在后面VPU的部分,会先容一下针对Vision运用的DSP。和CPU一样,DSP的技能很永劫光以来都节制在外国公司手里,海内也不乏兢兢业业在这方向努力的科研院所,如清华大学微电子所的Lily DSP(VLIW架构,有独立的编译器),以及国防科大的YHFT-QDSP和矩阵2000。但是,也有臭名昭著的“汉芯”。
EPU
Emotion Processing Unit
Emoshape 并不是这两年才推出EPU的,号称是环球首款感情合成(emotion synthesis)引擎,可以让机器人具有感情。但是,从官方渠道看,EPU本身并不繁芜,也不须要做任务量巨大的神经网络打算,是基于MCU的芯片。结合运用API以及云真个增强学习算法,EPU可以让机器能够在感情上理解它们所读或所看的内容。结合自然措辞天生(NLG)及WaveNet技能,可以让机器个性化的表达各种感情。例如,一部能够朗读的Kindle,其语音将根据所读的内容充满不同的感情状态。
FPU
先说一个最常用的FPU缩写:Floating Point Unit。浮点单元,不多做阐明了。现在高性能的CPU、DSP、GPU内都集成了FPU做浮点运算。
Force Processing Unit:原力处理器,助你成为绝地武士。酷!
GPU
Graphics Processing Unit
图形处理器。GPU原来最大的需求来自PC市场上各种游戏对图形处理的需求。但是随着移动设备的升级,在移动端也逐渐发展起来。
NVIDIA。提及GPU,毫无疑问现在的老大是NVIDIA。这家成立于1993年的芯片公司一贯致力于设计各种GPU:针对个人和游戏玩家的GeForce系列,针对专业事情站的Quadro系列,以及针对做事器和高性能运算的Tesla系列。随着AI的发展,NVIDIA在AI运用方面不断发力,推出了针对自动驾驶的DRIVE系列,以及专为AI打造的VOLTA架构。特殊提一下VOLTA,今年5月份,NVIDIA发布的Tesla V100采取TSMC 12nm工艺,面积竟然815mm^2,号称干系研发用度高达30亿美元。得益于在AI领域的一家独大,NVIFIA的股价在过去一年的韶光里狂涨了300%。末了,也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。
AMD。这几年NVIDIA的火爆,都快让大家忘了AMD的存在了。AMD是芯片行业中非常古老的一家芯片公司,成立于1969年,比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司(暴露年事地说,本人的第一台PC的显卡便是ATI的)。本文第一个词条APU便是AMD家的产品。AMD新出的MI系列GPU将目标对准AI。
在移动端市场,GPU被三家公司瓜分,但是也阻挡不了新的竞争者杀入。
ARM家的Mali。Mali不是ARM的自创GPU品牌,来自于ARM于2006年收购的Falanx公司。Falanx最初的GPU是面向PC市场的,但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向移动市场;并且Falanx最初的GPU的名字也不是Mali,而是Maliak,为了好记,改为Mali,来自罗马尼亚文,意思是small,而不是我们熟习的吃蘑菇救公主的超级玛丽(SuperMALI)。
Imagination的PowerVR。紧张客户是苹果,以是紧张精力都在支持苹果,对其他客户的支持不敷。但是,苹果溘然宣告放弃PVR转为自研,对Imagination打击不小,股价大跌六成。Imagination现在正在寻求整体出售,土财快追,但是,美国未必批。
Qualcomm的Adreno。技能来自于AMD收购ATI后出售的移动GPU品牌Imageon。故意思的是,名字改自于ATI的有名GPU品牌Radeon;
VeriSilicon的Vivante。Vivante(图芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司,于2015年被VSI收购。Vivante的市场霸占率较低。这里多加一段小八卦,Vivante的创始人叫戴伟进,VSI的创始人叫戴伟民,一句话对这次收购进行总结便是,戴家老大收购了戴家老二。哦,对了,戴家还有一个三妹戴伟立,创立的公司名号更响亮:Marvell。
Samsung的。。。哦,三星没有自己的GPU。作为一个IDM巨子,对付没有自家的GPU,三星一贯铭心镂骨。三星也宣告要研发自家的移动端GPU芯片,不过要等到2020年了。
再大略补充海内的两家开拓GPU的公司:
上海兆芯。兆芯是VIA(威盛)分离出来的。兆芯于2016年针对移动端出了一款GPU芯片ZX-2000,名字有点大略直接。紧张技能来源于威盛授权,GPU核心技能来自收购的美国S3 Graphics。
长沙景嘉微电子。于2014年推出一款GPU芯片JM5400。这是一家有国防科大背景的公司,与龙芯为互助伙伴,芯片紧张运用在军用飞机和神舟飞船上。
Graph Streaming Processor
图形流处理器。这是ThinCI(取意think-eye)提出的缩写。ThinCI是一家致力于打造deep learning和computer vision芯片的start-up,由4名Intel前员工创立于2010年,总部在Sacramento,在印度也有研发职员。ThinCI的视觉芯片瞄准了自动驾驶运用,投资方有天下顶级汽车零部件供应商公司日本电装DENSO。在刚结束的hotchip会议上,ThinCI先容了他们的GSP(于是本文作者将ThinCI从VPU部分移到了这里),利用了多种构造性技能来实现任务级、线程级、数据级和指令级的并行。GSP利用TSMC 28nm HPC+工艺,功耗估量2.5W。
HPU
Holographic Processing Unit
全息处理器。Microsoft专为自家Hololens运用开拓的。第一代HPU采取28nm HPC工艺,利用了24个Tensilica DSP并进行了定制化扩展。HPU支持5路cameras、1路深度传感器(Depth sensor)和1路动作传感器(Motion Sensor)。Microsoft 在最近的CVPR 2017上宣告了HPU2的一些信息。HPU2将搭载一颗支持DNN的协处理器,专门用于在本地运行各种深度学习。指的一提的是,HPU是一款为特定运用所打造的芯片,这个做产品的思路可以学习。听说Microsoft评测过Movidius(见VPU部分)的芯片,但是以为无法知足算法对性能、功耗和延迟的哀求,所有才有了HPU。
IPU
Intelligence Processing Unit
智能处理器。以IPU命名芯片的有两家公司。
Graphcore。Graphcore公司的IPU是专门针对graph的打算而打造的。轻微说说Graph,Graphcore认为Graph是知识模型及相应算法的非常自然的表示,以是将Graph作为机器智能的根本表示方法,既适用于神经网络,也适用于贝叶斯网络和马尔科夫场,以及未来可能涌现的新的模型和算法。Graphcore的IPU一贯比较神秘,直到近期才有一些细节的信息发布。比如:16nm,同构多核(>1000)架构,同时支持training和inference,利用大量片上sram,性能优于Volta GPU和TPU2,估量2017年底会有产品发布,等等。多八卦一点,Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。关于IPU更细节的描述,可以看唐博士的微信公号的一篇文章,传输门:解密又一个xPU:Graphcore的IPU。
Mythic。其余一家刚融了$9.3 million的start-up公司Mythic也提到了IPU:“Mythic's intelligence processing unit (IPU) adds best-in-class intelligence to any device”。和现在盛行的数字电路平台方案比较,Mythic号称可以将功耗降到1/50。之以是这么有信心,是由于他们利用的“processing in memory”构造。关于Processing in Memory,又可以大写一篇了,这里就不扩展了。有兴趣的,可以google一下“UCSB 谢源”,从他的研究开始理解。
Image Cognition Processor
图像认知处理器ICP,加拿大公司CogniVue开拓的用于视觉处理和图像认知的IP。跑个题,CogniVue一开始是Freescale的IP供应商,后来于2015年被Freescale收购以进一步加强ADAS芯片的整合开拓;随后,Freescale又被NXP 118亿美元拿下;还没完,高通近400亿美元吞并了NXP。 现在NXP家的ADAS SOC芯片S32V系列中,就用到了两个ICP IP。
Image Processing Unit
图像处理器。一些SOC芯片中将处理静态图像的模块称为IPU。但是,IPU不是一个常用的缩写,更常见的处理图像旗子暗记的处理器的缩写为下面的ISP。
Image Signal Processor
图像旗子暗记处理器。这个话题也不是一个小话题。ISP的功能,大略的来说便是处理camera等摄像设备的输出旗子暗记,实现降噪、Demosaicing、HDR、色彩管理等功能。以前是各种数码相机、单反相机中的标配。Canon、Nikon、Sony等等,你能想到的出数码相机的公司险些都有自己的ISP。进入手机拍照时期,人们对拍照摄像的哀求也越来越高,ISP必不可少。说回AI领域,camera采集图像数据,也要先经由ISP进行处理之后,再由视觉算法(运行在CPU、GPU或ASIC加速器上的)进行剖析、识别、分类、追踪等进一步处理。大概,随着AI技能发展,ISP的一些操作会直接被end-2-end的视觉算法统一。
JPU
请体谅鄙人的词汇量,没什么新奇的想法。。。。
KPU
Knowledge Processing Unit
嘉楠耘智(canaan)号称2017年将发布自己的AI芯片KPU。嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器,紧张供应异构、实时、离线的人工智能运用做事。这又是一家向AI领域扩展的不差钱的矿机公司。作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计得到近3亿元融资,估值近33亿公民币。听说嘉楠耘智近期将启动股改并推进IPO。
另:Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的,早在10年前就已经有论文和书本讲到这个词汇了。只是,现在嘉楠耘智将KPU申请了注册牌号。
LPU
谁给我点灵感?
MPU
Micro Processing Unit
微处理器。MPU,CPU,MCU,这三个观点差不多,知道就行了。
Mind Processing Unit
意念处理器,听起来不错。“解读脑电波”,“意念互换”,永恒的科幻话题。如果采集大量人类“思考”的脑电波数据,通过深度学习,再加上强大的意念处理器MPU,不知道能否成为mind-reader。如果道德伦理上无法接管,先理解一下家里宠物猫宠物狗的“想法”也是可以的吗。再进一步,从mind-reader发展为mind-writer,持续升级之后,是不是就可以成为冰与火中的Skinchanger?
Mobile Processing Unit:移动处理器,彷佛没什么意思。
Motion Processing Unit:运动处理器。解析人类、动物的肌肉运动?
题外话:并不是所有的xPU都是处理器,比如有个MPU,是Memory Protection Unit的缩写,是内存保护单元,是ARM核中配备的具有内存区域保护功能的模块。
NPU
Neural-Network Processing Unit
与GPU类似,神经网络处理器NPU已经成为了一个通用名词,而非某家公司的专用缩写。由于神经网络打算的类型和打算量与传统打算的差异,导致在进行NN打算的时候,传统CPU、DSP乃至GPU都有算力、性能、能效等方面的不敷,以是引发了专为NN打算而设计NPU的需求。这里罗列几个以NPU名义发布过产品的公司,以及几个学术圈的神经网络加速器。
中星微电子(Vimicro)的星光智能一号。中星微于2016年抢先发布了“星光智能一号”NPU。但是,这不是一个专为加速Neural Network而开拓的处理器。业内都知道其内部集成了多个DSP核(其称为NPU core),通过SIMD指令的调度来实现对CNN、DNN的支持。以这个逻辑,彷佛很多芯片都可以叫NPU,其他以DSP为打算核心的SOC芯片的命名和宣扬都相对守旧了。
Kneron。这是一家位于San Diego的start-up公司,针对IOT运用领域做deep learning IP开拓。Kneron开拓的NPU实现了39层CNN,28nm下的功耗为0.3W,能效200GFLOPs/W。其主页上给出的另一个能效数据是600GOPs/W。此外,Kneron同时也在FPGA开拓云真个硬件IP。据可靠,Kneron也要在中国大陆建立研发部门了,地点涉及北京、上海、深圳。
VeriSilicon(芯原)的VIP8000。VSI创立于2001年。VSI于今年5月以神经网络处理器IP的名义发布了这款代号VIP8000的IP。从其公布的“VeriSilicon’s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second”来看,这款芯片利用的并不是其DSP core,而是内置了其2015年收购的Vivante的GPU core。按照VSI的说法,VIP8000在16nm FinFET工艺下的打算力超过3 TMAC/s,能效高于1.5 GMAC/s/mW。
DNPU-Deep Neural-Network Processing Unit。DNPU来自于KAIST在ISSCC2017上揭橥的一篇文章。我把DNPU当做是NPU的一种别名,毕竟现在业内做的支持神经网络打算的芯片没有只支持“非深度”神经网络的。关于DNPU可以参考“从ISSCC Deep Learning处理器论文到人脸识别产品”。
Eyeriss。MIT的神经网络项目,针对CNN的进行高能效的打算加速设计。
Thinker。清华微电子所设计的一款可重构多模态神经打算芯片,可以平衡CNN和RNN在打算和带宽之间的资源冲突。
Neural/Neuromorphic Processing Unit
神经/神经形态处理器。这和上面的神经网络处理器还有所不同。而且,一样平常也不以“处理器”的名字涌现,更多的时候被称为“神经形态芯片(Neuromorphic Chip)”或者是“类脑芯片(Brain-Inspired Chip)”。这类AI芯片不是用CNN、DNN等网络形式来做打算,而因此更类似于脑神经组成构造的SNN(Spiking Neural Network)的形式来进行打算。随便列几个,都不是“xPU”的命名办法。
Qualcomm的Zeroth。高通几年前将Zeroth定义为一款NPU,合营以软件,可以方便的实现SNN的打算。但是,NPU彷佛不见了踪影,现在只剩下了同名的机器学习引擎Zeroth SDK。
IBM的TrueNorth。IBM2014年公布的TrueNorth。在一颗芯片上集成了4096个并行的core,每个core包含了256个可编程的神经元neurons,一共1百万个神经元。每个神经元有256个突触synapses,共256 Mlillion。TrueNorth利用了三星的28nm的工艺,共5.4 billion个晶体管。
BrainChip的SNAP(Spiking Neuron Adaptive Processor )。已经有了赌场的运用。
GeneralVision的CM1K、NM500 chip,以及NeuroMem IP。这家公司的CM1K芯片有1k个神经元,每个神经元对应256Byte存储。虽然无法和强大的TrueNorth相提并论,但是已有客户运用。并且,供应BrainCard,上面有FPGA,并且可以直接和Arduino以及Raspberry Pi连接。
Knowm。这家start-up在忆阻器(memristor)技能根本上做“processing in memory”的AI芯片研发。不过,与前面提到的Mythic(IPU部分)不同的是,Known做的是类脑芯片。Knowm所用的关键技能是一种称为热力学内存(kT-RAM)的memory,是根据AHaH理论(Anti-Hebbian and Hebbian)发展而来。
Koniku。成立于2014年的start-up,要利用生物神经元来做打算,\公众Biological neurons on a chip\"大众。主页在倒计时,可能要有主要进展公布,期待。
OPU
Optical-Flow Processing Unit。光流处理器。有须要用专门的芯片来实现光流算法吗?
不知道,但是,用ASIC IP来做加速该当是要的。
PPU
Physical Processing Unit
物理处理器。要先阐明一下物理运算,就知道物理处理器是做什么的了。物理打算,便是仿照一个物体在真实天下中该当符合的物理定律。详细的说,可以使虚拟天下中的物体运动符合真实天下的物理定律,可以使游戏中的物体行为更加真实,例如布料仿照、毛发仿照、碰撞侦测、流体力学仿照等。开拓物理打算引擎的公司有那么几家,利用CPU来完成物理打算,支持多种平台。但是,Ageia该当是唯一一个利用专用芯片来加速物理打算的公司。Ageia于2006年发布了PPU芯片PhysX,还发布了基于PPU的物理加速卡,同时供应SDK给游戏开拓者。2008年被NVIDIA收购后,PhysX加速卡产品被逐渐取消,现在物理打算的加速功能由NVIDIA的GPU实现,PhysX SDK被NVIDIA重新打造。
QPU
Quantum Processing Unit
量子处理器。量子打算机也是近几年比较火的研究方向。作者承认在这方面所知甚少。可以关注这家成立于1999年的公司D-Wave System。DWave大概每两年可以将其QPU上的量子位个数翻倍一次。
RPU
Resistive Processing Unit
阻抗处理单元RPU。这是IBM Watson Research Center的研究职员提出的观点,真的是个处理单元,而不是处理器。RPU可以同时实现存储和打算。利用RPU阵列,IBM研究职员可以实现80TOPS/s/W的性能。
Ray-tracing Processing Unit
光芒追踪处理器。Ray tracing是打算机图形学中的一种渲染算法,RPU是为加速个中的数据打算而开拓的加速器。现在这些打算都是GPU的事情了。
SPU
Streaming Processing Unit
流处理器。流处理器的观点比较早了,是用于处理视频数据流的单元,一开始涌如今显卡芯片的构造里。可以说,GPU便是一种流处理器。乃至,还曾经存在过一家名字为“Streaming Processor Inc”的公司,2004年创立,2009年,随着创始人兼董事长被挖去NVIDIA当首席科学家,SPI关闭。
Speech-Recognition Processing Unit
语音识别处理器,SPU或SRPU。这个缩写还没有公司拿来利用。现在的语音识别和语义理解紧张是在云端实现的,比如科大讯飞。科大讯飞最近推出了一个翻译机,可以将语音传回云端,做实时翻译,内部硬件没有去专门理解。和语音识别干系的芯片如下:
启英泰伦(chipintelli)。于2015年11月在成都成立。该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片,可实现单芯片本地离线大词汇量识别。
MIT项目。今年年初媒体爆过MIT的一款黑科技芯片,实在便是MIT在ISSCC2017上揭橥的paper里的芯片,也是可以实现单芯片离线识别上k个单词。可以参考阅读“剖析一下MIT的智能语音识别芯片”。
云知声(UniSound)。云知声是一家专攻智能语音识别技能的公司,成立于2012年6月,总部在北京。云知声刚刚得到3亿公民币计策投资,个中一部分将用来研发其稍早公布的AI芯片操持,命名“UniOne”。据官方透漏,UniOne将内置DNN处理单元,兼容多麦克风、多操作系统。并且,芯片将以模组的形式供应给客户,让客户直接拥有一整套云端芯的做事。
Smart Processing Unit:聪明的处理器,听起来很Q。
Space Processing Unit
空间处理器,高大上,有没有。全景摄像,全息成像,这些还都是处理我们的生活空间。当面对广阔的太阳系、银河系这些宇宙空间,是不是须要新的更强大的专用途理器呢?飞向M31仙女座星系,对抗阴郁武士,只靠x86估计是弗成的。
TPU
Tensor Processing Unit
Google的张量处理器。2016年AlphaGo打败李世石,2017年AlphaGo打败柯洁,两次人工智能催化事宜给芯片行业带来的冲击无疑便是TPU的涌现和解密。Google在2017年5月的开拓者I/O大会上正式公布了TPU2,又称Cloud TPU。比较于TPU1,TPU2既可以用于training,又可以用于inference。TPU1利用了脉动阵列的流处理构造,详细的细节可以参考如下的文章>>Google TPU 揭密。
UPU
Universe Processing Unit:宇宙处理器。和Space Processing Unit比较,你更喜好哪个?
VPU
Vision Processing Unit
视觉处理器VPU也有希望成为通用名词。作为现今最火热的AI运用领域,打算机视觉的发展的确能给用户带来前所未有的体验。为了处理打算机视觉运用中碰着的超大打算量,多家公司正在为此设计专门的VPU。
Movidius(已被Intel收购)。Movidius成立于2006年,总部位于硅谷的San Mateo,创始人是两个爱尔兰人,以是在爱尔兰有分部。Movidius早期做的是将旧电影转为3D电影的业务,后期开始研发运用于3D渲染的芯片,并开始运用于打算机视觉运用领域(这解释:1,芯片行业才是高技能含量、高门槛、高代价的行业;2,初创公司要随着发展调度自己的计策)。
Movidius开拓的Myriad系列VPU专门为打算机视觉进行优化,可以用于 3D 扫描建模、室内导航、360°全景视频等更前沿的打算机视觉用场。例如,2014年,谷歌的Project Tango项目用 Myriad 1帮助打造室内三维舆图;2016年,大疆的“精灵4”和“御”都采取了Movidius 的 Myriad 2芯片。采取TSMC 28nm工艺的Myriad2中集成了12个向量处理器SHAVE (Streaming Hybrid Architecture Vector Engine)。按照Movidius的说法,SHAVE是一种稠浊型流处理器,集成了GPU、 DSP和RISC的优点,支持8/16/32 bit定点和16/32 bit浮点打算,而且硬件上支持稀疏数据构造。此外,Myriad2中有两个RISC核以及video硬件加速器。据称,Myriad2可以同时处理多个视频流。
最新,美国韶光8月28日,Movidius宣告推出新一代VPU:Myriad X。与上一代Myriad2比,Myriad X将集成DNN加速器:神经打算引擎(Neural Compute Engine),支持浮点16bit和定点8bit。据称,DNN推理吞吐量能达到1TOPS,而理论运算量能达到4+ TOPS。Myriad X有四个128位VLIW矢量处理器,支持最新的LPDDR4,并且支持4K硬件编码,支持USB3.1和PCIe3.0。工艺上,利用TSMC 16nm。
Inuitive。一家以色列公司,供应3D图像和视觉处理方案,用于AR/VR、无人机等运用处景。Inuitive的下一代视觉处理器NU4000采取28nm工艺,选择利用CEVA的XM4 DSP,并集成了深度学习处理器(自己开拓?或者购买IP?)和深度处理引擎等硬件加速器。
DeepVision。一家总部位于Palo Alto的start-up,为嵌入式设备设计和开拓低功耗VPU,以支持深度学习、CNN以及传统的视觉算法,同时供应实时处理软件。
Visual Processing Unit
这里是visual,不是vision。ATI一开始称自家显卡上的芯片为VPU,后来见贤思齐,都改叫GPU了。
Video Processing Unit
视频处理器。处理动态视频而不是图像,例如进行实时编解码。
Vector Processing Unit
向量处理器。标量处理器、向量处理器、张量处理器,这因此处理器处理的数据类型进行的划分。现在的CPU已经不再是纯挚的标量处理器,很多CPU都集成了向量指令,最范例的便是SIMD。向量处理器在超级打算机和高性能打算中,扮演着重要角色。基于向量处理器研发AI领域的专用芯片,也是很多公司的选项。例如,前面刚提到Movidius的Myriad2中,就包含了12个向量处理器。
Vision DSP
针对AI中的打算机视觉运用,各家DSP公司都发布了DSP的Vision系列IP。大略罗列如下:
CEVA的XM4,最新的XM6 DSP。除了可以连接支持自家的硬件加速器HWA(CEVA Deep Neural Network Hardware Accelerator ),也可以支持第三方开拓的HWA。前面提到的Inuitive利用了XM4。可以参考“处理器IP厂商的机器学习方案 - CEVA”。
Tensilica(2013年被Cadence以3.8亿美元收购)的P5、P6,以及最新的C5 DSP。一个最大的特色便是可以用TIE措辞来定制指令。前面微软的HPU中利用他家的DSP。可以参考“神经网络DSP核的一桌麻将终于凑齐了”。
Synopsys的EV5x和EV6x系列DSP。可以参考“处理器IP厂商的机器学习方案 - Synopsys”。
Videantis的v-MP4系列。Videantis成立于1997年,总部位于德国汉诺顿。v-MP4虽然能做很多机器视觉的任务,但还是传统DSP增强设计,并没有针对神经网络做分外设计。
WPU
Wearable Processing Unit
一家印度公司Ineda Systems在2014年大肆宣扬了一下他们针对IOT市场推出的WPU观点,得到了高通和三星的注资。Ineda Systems研发的这款“Dhanush WPU”分为四个级别,可适应普通级别到高端级别的可穿着设备的运算需求,可以让可穿着设备的电池达到30天的持续续航、减少10x倍的能耗。但是,统统彷佛在2015年戛然而止,没有了任何。只在主页的最下端有笔墨显示,Ineda将WPU申请了注册牌号。有关WPU的信息只有大概构造,哦,对了,还有一个美国专利。
Wisdom Processing Unit
聪慧处理器。这个WPU听起来比较高大上,拿去用,不谢。不过,有点“脑白金”的味道。
XPU
不如干脆就叫XPU,X可以表示未知,统统皆有可能,类似X Man,X File,SpaceX。
就在这篇快扫尾的时候,获悉在今年的hotchip会议上,Baidu公开了其FPGA Accelerator的名字,就叫XPU。不过,这个X指的是Xilinx。还没有详细细节可说,拭目以待吧。
YPU
Y?没想法,须要乞助各位读者了。
ZPU
Zylin CPU
挪威公司Zylin的CPU的名字。为了在资源有限的FPGA上能拥有一个灵巧的微处理器,Zylin开拓了ZPU。ZPU是一种stack machine(堆栈构造机器),指令没有操作数,代码量很小,并有GCC工具链支持,被称为“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin在2008年将ZPU在opencores上开源。有组织还将Arduino的开拓环境进行了修正给ZPU用。
其他非xPU的AI芯片
寒武纪科技(Cambricon)
中科院背景的寒武纪并没有用xPU的办法命名自家的处理器。媒体的文章既有称之为深度学习处理器DPU的,也有称之为神经网络处理器NPU的。陈氏兄弟的DianNao系列芯片架构连续几年在各大顶级会议上刷了好几篇best paper,为其公司的成立奠定了技能根本。寒武纪Cambricon-X指令集是其一大特色。目前其芯片IP已扩大范围授权集成得手机、安防、可穿着设备等终端芯片中。据流传,2016年就已拿到一亿元订单。在一些分外领域,寒武纪的芯片将在海内具有绝对的霸占率。最新宣布显示,寒武纪又融了1亿美元。
Intel
Intel在智好手机芯片市场的失落利,让其痛定思痛,一改当年的犹豫,在AI领域的几个运用方向上接连发了狠招。什么狠招呢,便是三个字:买,买,买。在数据中央/云打算方面,167亿美金收购的Altera,4亿美金收购Nervana;在移动真个无人机、安防监控等方面,收购Movidius(未公布收购金额);在ADAS方面,153亿美金收购Mobileye。Movidius在前面VPU部分进行了先容,这里补充一下Nervana和Mobileye(基于视觉技能做ADAS方案,不是纯挚的视觉处理器,以是没写在VPU部分)。
Nervana
Nervana成立于2014年,总部在SanDiego,以供应AI全栈软件平台Nervana Cloud为紧张业务。和硬件扯上关系的是,Nervana Cloud除了支持CPU、GPU乃至Xeon Phi等后台硬件外,还供应有自家定制的Nervana Engine硬件架构。根据 The Next Platform的宣布“Deep Learning Chip Upstart Takes GPUs to Task”,Nervana Engine 利用TSMC 28nm工艺,算力55 TOPS。宣布发布不到24小时,就被Intel收购了,全部48位员工并入Intel。Intel以Nervana Engine为核心打造了Crest Family系列芯片。项目代码为“Lake Crest”的芯片是第一代Nervana Engine,“Knights Crest”为第二代。哦,对了,Nervana的CEO在创立Nervana之前,在高通卖力一个神经形态打算的研究项目,便是上面提到的Zeroth。
Mobileye
一家基于打算机视觉做ADAS的以色列公司,成立于1999年,总部在耶路撒冷。Mobileye为自家的ADAS系统开拓了专用的芯片——EyeQ系列。2015年,Tesla宣告正在利用Mobileye的芯片(EyeQ3)和方案。但是,2016年7月,Tesla和Mobileye宣告将终止互助。随后,Mobile于2017年被Intel以$153亿收入囊中,现在是Intel的子公司。Mobileye的EyeQ4利用了28nm SOI工艺,个顶用了4个MIPS的大CPU core做主控和算法调度以及一个MIPS的小CPU core做外设掌握,集成了10个向量处理器(称为VMP,Vector Microcode Processor)来做数据运算(有点眼熟,回去看看Movidius部分)。Mobileye的下一代EyeQ5将利用7nm FinFET工艺,集成18个视觉处理器,并且为了达到自动驾驶的level 5增加了硬件安全模块。
比特大陆Bitmain
比特大陆设计的全定制矿机芯片性能优胜,让其大赚特赚。在卖矿机芯片之余,比特大陆自己也挖挖矿。总之,芯片设计能力非凡、土豪有钱的比特大陆对标NVIDIA的高端GPU芯片,任性地用16nm的工艺开启了自家的AI芯片之路。芯片测试已有月余,据传功耗60W旁边,同步在招揽产品、市场职员。最近的推文爆出了这款AI芯片的名字:“智子(Sophon)”,来自著名的《三体》,可见野心不小,相信不就即将正式发布。
华为&海思
市场期待华为的麒麟970已经很永劫光了,内置AI加速器已成公开的秘密,据传用了寒武纪的IP,就等秋季发布会了。还是据传,海思的HI3559中用了自己研发的深度学习加速器。
苹果
苹果正在研发一款AI芯片,内部称为“苹果神经引擎”(Apple Neural Engine)。这个大家并不惊异,大家想知道的便是,这个ANE会在哪款iphone中用上。
高通
高通除了掩护其基于Zeroth的软件平台,在硬件上也动作不断。收购NXP的同时,据传高通也一贯在和Yann LeCun以及Facebook的AI团队保持互助,共同开拓用于实时推理的新型芯片。
还有一些诸如Leapmind、REM这样的start-up,就不一一列举。
结束语
AI芯片,百家争鸣,机遇伴随寻衅,本日你争我夺,来日诰日就可能并购。随着这些“xPU”的不断推陈出新,26个字母利用殆尽。但是,换个角度,实在也没紧要,索性起个独特的名字。或者,抢先布局“processing in memory”路线,先占个“xxxRAM”或“xxxMem”名字。
末了,安利一下清华汪玉老师的实验室做的网页NN Accelerator | NICS EFC Lab>>https://nicsefc.ee.tsinghua.edu.cn/projects/neural-network-accelerator/
网络了各种公开的神经网络加速器的数据,并进行了可视化,如图:
作者简介
谭洪贺,资深IC工程师。博士毕业于清华大学,多年一贯从事于数字集成电路开拓事情。从DSP、ASIP到特定加解密算法的ASIC低功耗实现,从音视频编解码的高性能设计到打算机视觉、语音识别的高效能实现,逐步进入AI领域。
现任地平线机器人技能资深IC工程师,深度参与AI算法在芯片真个实现事情。
-END-
-----本周将门技能社群分享预报-----
欢迎加入将门技能社群!
现已涵盖CV、机器人、NLP、ML、IoT等多个当下火热的技能话题。我们每周约请来自产学研的精良技能人进行线上分享,目前群里已汇聚数千位上述领域的技能从业者。
入群办法>>关注“将门创投”(id:thejiangmen)微信"大众号,在后台回答关键词“技能社群”,提交入群申请表。通过审核后,我们会在第一韶光发出约请。
点击右上角,把文章朋友圈
将门创投
让创新得到认可!
微信:thejiangmen
service@thejiangmen.com