深度学习不仅在传统的语音识别、图像识别、搜索/推举引擎、打算广告等领域证明了其划时期的代价,也引爆了全体人工智能生态向更大的领域延伸。由于深度学习的演习(training)和推断(inference)均须要大量的打算,人工智能界正在面临前所未有的算力寻衅,而其始作俑者,是摩尔定律的失落效。
由于构造所限,CPU性能近年来未能呈现如摩尔定律预测的定期翻倍,于是具有数量浩瀚打算单元和超长流水线、具备强大并行打算能力与浮点打算能力的GPU,成为了深度学习模型演习的标配。GPU可以大幅加速深度学习模型的演习速率,比较CPU能供应更快的处理速率、更少的做事器投入和更低的功耗,并成为深度学习演习层面的事实工具标准。
但是,随着人工智能家当链的火速延伸,GPU并不能知足所有场景(如手机)上的深度学习打算任务, GPU并不是深度学习算力痛点的唯一解。算力的刚需,吸引了浩瀚巨子和初创公司纷纭进入人工智能芯片领域,并形成了一个自下而上的生态体系,本文希望通过不太长的篇幅,系统呈现这个缤纷而有趣的人工智能芯片生态。

人工智能芯片分类
一项深度学习工程的搭建,可分为演习(training)和推断(inference)两个环节:演习环境常日须要通过大量的数据输入,或采纳增强学习等非监督学习方法,演习出一个繁芜的深度神经网络模型。演习过程由于涉及海量的演习数据(大数据)和繁芜的深度神经网络构造,须要的打算规模非常弘大,常日须要GPU集群演习几天乃至数周的韶光,在演习环节GPU目前暂时扮演着难以轻易替代的角色。
推断(inference)环节指利用演习好的模型,利用新的数据去“推断”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然推断环节的打算量比较演习环节少,但仍旧涉及大量的矩阵运算。在推断环节,除了利用CPU或GPU进走运算外,FPGA以及ASIC均能发挥重大浸染。
FPGA(可编程门阵列,Field Programmable Gate Array)是一种集成大量基本门电路及存储器的芯片,可通过烧入FPGA配置文件来来定义这些门电路及存储器间的连线,从而实现特定的功能。而且烧入的内容是可配置的,通过配置特定的文件可将FPGA转变为不同的处理器,就如一块可重复刷写的白板一样。因此FPGA可灵巧支持各种深度学习的打算任务,性能上根据百度的一项研究显示,对付大量的矩阵运算GPU远好于FPGA,但是当处理小打算量大批次的实际打算时FPGA性能优于GPU,其余FPGA有低延迟的特点,非常适宜在推断环节支撑海量的用户实时打算要求(如语音云识别)。
ASIC(专用集成电路,Application Specific Integrated Circuit)则是不可配置的高度定制专用芯片。特点是须要大量的研发投入,如果不能担保出货量其单颗本钱难以低落,而且芯片的功能一旦流片后则无变动余地,若市场深度学习方向一旦改变,ASIC前期投入将无法回收,意味着ASIC具有较大的市场风险。但ASIC作为专用芯片性能高于FPGA,如能实现赶过货量,其单颗本钱可做到远低于FPGA。
在深度学习的演习和推断环节,常用到的芯片及特色如下图所示:
从市场角度而言,目前人工智能芯片的需求可归纳为三个种别:首先是面向于各大人工智能企业及实验室研发阶段的演习环节市场;其次是数据中央推断(inference on cloud),无论是亚马逊Alexa还是出门问问等主流人工智能运用,均须要通过云端供应做事,即推断环节放在云端而非用户设备上;第三种是面向智好手机、智能安防摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推断(inference on device)市场,设备端推断市场须要高度定制化、低功耗的人工智能芯片产品。如传闻华为即将在Mate 10的麒麟970中搭载寒武纪IP,旨在为手机端实现较强的深度学习本地端打算能力,从而支撑以往须要云端打算的人工智能运用。
我们环绕上述的分类标准,从市场及芯片特性两个角度出发,可勾画出一个人工智能芯片的生态体系,全体生态体系分为演习层、云端推断层和设备端推断层:
Training层芯片生态
毫无疑问在深度学习的Training阶段,GPU成为了目前一项事实的工具标准。由于AMD今年来在通用打算以及生态圈构建方面都长期缺位,导致了在深度学习GPU加速市场NVIDIA一家独大的局势。根据NVIDIA今年Q2年报显示,NVIDIA的Q2收入为达到22.3亿美元,毛利率更是达到了惊人的58.4%,个中数据中央(紧张为面向深度学习的Tesla加速做事器)Q2收入4.16亿美元,同比上升达175.5%。
面对深度学习Training这块目前被NVIDIA赚得盆满钵满的市场,浩瀚巨子纷纭对此发起了寻衅。Google今年5月份发布了TPU 2.0,TPU是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推断(即不可用于演习模型),并在AlphaGo人机大战中供应了巨大的算力支撑。而目前Google发布的TPU 2.0除了推断以外,还能高效支持演习环节的深度网络加速。根据Google表露,Google在自身的深度学习翻译模型的实践中,如果在32块顶级GPU上并行演习,须要一整天的演习韶光,而在TPU2.0上,八分之一个TPU Pod(TPU集群,每64个TPU组成一个Pod)就能在6个小时内完成同样的演习任务。
目前Google并没急于推进TPU芯片的商业化。Google在TPU芯片的整体方案是,基于自家开源、目前在深度学习框架领域排名第一的TensorFlow,结合Google云做事推出TensorFlow Cloud,通过TensorFlow加TPU云加速的模式为AI开拓者供应做事,Google或许并不会考虑直接出售TPU芯片。如果一旦Google将来能为AI开拓者供应比较购买GPU更低本钱的TPU云加速做事,借助TensorFlow生态毫无疑问会对NVIDIA构成重大威胁。
当然TPU作为一种ASIC芯片方案,意味着其巨大的研发投入和市场风险,而其背后的潜在市场也是巨大的:一个横跨演习和云端推断的弘大云做事,但目前恐怕只有Google才有如此巨大的决心和资源禀赋,利用ASIC芯片去构筑这一布局——如果将来TPU云做事无法得到巨大的市场份额从而降落单颗TPU的本钱,Google将难以在这一市场盈利。但市场的造就除了芯片本身显然是不敷够的,还包括让浩瀚熟习GPU加速的研究/开拓者转到TPU云打算平台的转换本钱,这意味着Google要做大量的生态系统造就事情。
除了Google外,昔日的GPU王者AMD目前也奋起直追,发布了三款基于Radeon Instinct的深度学习加速器方案,希望在GPU深度学习加速市场分回一点份额,当然AMD是否能针对NVIDIA的同类产品得到相对上风尚为未知之数。
对付现任老大NVIDIA而言,目前当务之急无疑是建立护城河保卫其市场份额,总结起来是三方面的核心举措。一方面在产品研发上,NVIDIA耗费了高达30亿美元的研发投入,推出了基于Volta、首款速率超越100TFlops的处理器Tesla,主打工业级超大规模深度网络加速;其余一方面是加强人工智能软件堆栈体系的生态造就,即供应易用、完善的GPU深度学习平台,不断完善CUDA、 cuDNN等套件以及深度学习框架、深度学习类库来保持NVIDIA体系GPU加速方案的粘性。第三是推出NVIDIA GPU Cloud云打算平台,除了供应GPU云加速做事外,NVIDIA以NVDocker办法供应全面集成和优化的深度学习框架容器库,以其便利性进一步吸引中小AI开拓者利用其平台。
核心驱动能力:对付深度学习演习这个人工智能生态最为关键的一环,我们可以看到竞争的核心已经不是纯挚的芯片本身,而是基于芯片加速背后的全体生态圈,供应足够友好、易用的工具环境让开发者迅速获取到深度学习加速算力,从而降落深度学习模型研发+演习加速的整体TCO和研发周期。一言蔽之,这个领域是巨子玩家的沙场,普通的初创公司进入这个领域险些没有任何的机会,接下来的核心看点,是Google究竟是否能凭借TensorFlow+Google Cloud+TPU 2.0生态取得对NVIDIA的相对上风,以市场份额的量变引起质变。毕竟比较主打通用打算的NVIDIA GPU,TPU的ASIC方案当出货量打破一定阈值后,其单颗价格和功耗比均能构成无法忽略的竞争上风。当然,这取决于两个条件条件:一是深度学习主流框架在今后几年不发生重大变革,比如深度学习变得不再高度依赖矩阵运算,否则一颗写去世的ASIC将失落去险些统统代价。二是Google能构筑出足够好用的生态,让浩瀚AI研究/开拓者从CUDA+GPU转向Google,冲破业界对NVIDIA的路径依赖,而这点才是真正困难的道路。
Inference On Cloud层芯片生态
当一项深度学习运用,如基于深度神经网络的机器翻译做事,经由数周乃至长达数月的GPU集群并行演习后得到了足够性能,接下来将投入面向终端用户的消费级做事运用中。由于一样平常而言演习出来的深度神经网络模型每每非常繁芜,其Inference(推断)仍旧是打算密集型和存储密集型的,这使得它难以被支配到资源有限的终端用户设备(如智好手机)上。正如Google不期望用户会安装一个大小超过300M的机器翻译APP运用得手机上,并且每次翻译推断(运用演习好的神经网络模型打算出翻译的结果)的手机本地打算韶光长达数分钟乃至耗尽手机电量仍旧未完成打算。这时候,云端推断(Inference On Cloud)在人工智能运用支配架构上变得非常必要。
虽然单次推断的打算量远远无法和演习比较,但如果假设有1000万人同时利用这项机器翻译做事,其推断的打算量总和足以对云做事器带来巨大压力,而随着人工智能运用的遍及,这点无疑会变成常态以及业界的另一个痛点。由于海量的推断要求仍旧是打算密集型任务,CPU在推断环节再次成为瓶颈。但在云端推断环节,GPU不再是最优的选择,取而代之的是,目前3A(阿里云、Amazon、微软Azure)都纷纭探索云做事器+FPGA芯片模式替代传统CPU以支撑推断环节在云真个技能密集型任务。
亚马逊 AWS 在去年推出了基于 FPGA 的云做事器 EC2 F1;微软早在2015年就通过Catapult 项目在数据中央实验CPU+FPGA方案;而百度则选择与FPGA巨子Xilinx(赛思灵)互助,在百度云做事器中支配KintexFPGA,用于深度学习推断,而阿里云、腾讯云均有类似环绕FPGA的布局,详细如下表所示。当然值得一提的是,FPGA芯片厂商也涌现了一家中国企业的身影——清华系背景、定位于深度学习FPGA方案的深鉴科技,目前深鉴已经得到了Xilinx的计策性投资。
云打算巨子纷纭布局云打算+FPGA芯片,首先由于FPGA作为一种可编程芯片,非常适宜支配于供应虚拟化做事的云打算平台之中。FPGA的灵巧性,可授予云做事商根据市场需求调度FPGA加速做事供给的能力。比如一批深度学习加速的FPGA实例,可根据市场需求导向,通过改变芯片内容变更为如加解密实例等其他运用,以确保数据中央中FPGA的巨大投资不会由于市场风向变革而陷入风险之中。其余,由于FPGA的体系构造特点,非常适宜用于低延迟的流式打算密集型任务处理,意味着FPGA芯片做面向与海量用户高并发的云端推断,比较GPU具备更低打算延迟的上风,能够供应更佳的消费者体验。
在云端推断的芯片生态中,不得不提的最主要力量是PC时期的王者英特尔。面对摩尔定律失落效的CPU产品线,英特尔痛定思痛,将PC时期积累的现金流,通过多桩大手笔的并购迅速补充人工智能时期的核心资源能力。首先以 167 亿美元的代价收购 FPGA界排名第二的Altera,整合Altera多年FPGA技能以及英特尔自身的生产线,推出CPU + FPGA 异构打算产品主攻深度学习的云端推断市场。其余,去年通过收购拥有为深度学习优化的硬件和软件堆栈的Nervana,补全了深度学习领域的软件做事能力。当然,不得不提的是英特尔还收购了领先的ADAS做事商Mobileye以及打算机视觉处理芯片厂商Movidius,将人工智能芯片的触角延伸到了设备端市场,这点将在本文余下部分讲述。
比较Training市场中NVIDIA一家独大,云端推断芯片领域目前可谓风起云涌,一方面英特尔希望通过深耕CPU+FPGA办理方案,成为云端推断领域的NVIDIA,打一次俊秀的翻身仗。其余由于云端推断市场当前的需求并未进入真正的高速爆发期,多数人工智能运用当前仍处于试验性阶段,尚未在消费级市场形成巨大需求,各云打算做事商彷佛故意凭借自身云做事上风,在这个爆发点来临之前布局自己的云端FPGA运用生态,做到肥水不流外人(英特尔)田,其余一个不可忽略的成分,是Google的TPU生态对云端推断的市场份额同样有巨大的野心,大概这将会是一场彻里彻外的大混战。
Inference On Device层芯片生态
随着人工智能运用生态的爆发,将会涌现越来越多不能纯挚依赖云端推断的设备。例如,自动驾驶汽车的推断,不能交由云端完成,否则如果涌现网络延时则是灾害性后果;或者大型城市动辄百万级数量的高清摄像头,其人脸识别推断如果全交由云端完成,高清录像的网络传输带宽将让全体城市的移动网络不堪重负。未来在相称一部分人工智能运用处景中,哀求终端设备本身须要具备足够的推断打算能力,而显然当前ARM等架构芯片的打算能力,并不能知足这些终端设备确当地深度神经网络推断,业界须要全新的低功耗异构芯片,授予设备足够的算力去应对未来加倍增多的人工智能运用处景。
有哪些设备须要具备Inference On Device能力?主流场景包括智好手机、ADAS、CV设备、VR设备、语音交互设备以及机器人。
智好手机——智好手机中嵌入深度神经网络加速芯片,或许将成为业界的一个新趋势,当然这个趋势要等到有足够基于深度学习的杀手级APP涌现才能得以确认。传闻中华为即将在Mate 10的麒麟970中搭载寒武纪IP,为Mate 10带来较强的深度学习本地端推断能力,让各种基于深度神经网络的拍照/图像处理运用能够为用户供应更加的体验。其余,高串通样故意在日后的芯片中加入骁龙神经处理引擎,用于本地端推断,同时ARM也推出了针对深度学习优化的DynamIQ技能。对付高通等SoC厂商,在其成熟的芯片方案中加入深度学习加速器IP并不是什么难事,智好手机未来人工智能芯片的生态基本可以断定仍会节制在传统SoC商手中。
ADAS(高等赞助驾驶系统)——ADAS作为最吸引大众眼球的人工智能运用之一,须要处理海量由激光雷达、毫米波雷达、摄像头等传感器采集的海量实时数据。作为ADAS的中枢大脑,ADAS芯片市场的紧张玩家包括今年被英特尔收购的Mobileye、去年被高通以470亿美元惊人价格收购的NXP,以及汽车电子的领军企业英飞凌。随着NVIDIA推出自家基于 GPU的ADAS办理方案Drive PX2,NVIDIA也加入到战团之中。
CV(打算机视觉,Computer Vision)设备——打算机视觉领域环球领先的芯片供应商是Movidius,目前已被英特尔收购,大疆无人机、海康威视和大华股份的智能监控摄像头均利用了Movidius的Myriad系列芯片。须要深度利用打算机视觉技能的设备,如上述提及的智能摄像头、无人机,以及行车记录仪、人脸识别迎宾机器人、智好手写板等设备,每每都具有本地端推断的刚需,如刚才提及的这些设备如果仅能在联网下事情,无疑将带来糟糕的体验。。而打算机视觉技能目前看来将会成为人工智能运用的沃土之一,打算机视觉芯片将拥有广阔的市场前景。目前海内做打算机视觉技能的公司以初创公司为主,如商汤科技、阿里系旷视、腾讯优图,以及云从、依图等公司。在这些公司中,未来有可能随着其自身打算机视觉技能的积累渐深,部分公司将会自然而然转入CV芯片的研发中,正如Movidius也正是从打算机视觉技能到芯片商一起走来的路径。
VR设备、语音交互设备以及机器人——由于篇幅关系,这几个领域放在一起先容。VR设备芯片的代表为微软为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备打算机视觉的矩阵运算和CNN运算的加速功能。语音交互设备芯片方面,海内有启英泰伦以及云知声两家公司,其供应的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别。机器人方面,无论是家居机器人还是商用做事机器人均须要专用软件+芯片的人工智能办理方案,这方面范例公司有由前百度深度学习实验室卖力人余凯创办的地平线机器人,当然地平线机器人除此之外,还供应ADAS、智能家居等其他嵌入式人工智能办理方案。
在Inference On Device领域,我们看到的是一个缤纷的生态。由于无论是ADAS还是各种CV、VR等设备领域,人工智能运用仍远未成熟,年夜家工智能技能做事商在深耕各自领域的同时,逐渐由人工智能软件演进到软件+芯片办理方案是自然而然的路径,因此形成了丰富的芯片产品方案。但我们同时不雅观察到的是,NVIDIA、英特尔等巨子逐渐也将触手延伸到了Inference On Device领域,意图形成端到真个综合人工智能办理方案体系,实现各层次资源的联动。
雷锋网按:本文为专栏投稿文章,作者胡嘉琪。