自动驾驶芯片:GPU 的现在和 ASIC 的未来_芯片_量产

文章目录 [+]

过去汽车电子芯片以与传感器逐一对应的电子掌握单元(ECU)为主，紧张分布与发动机等核心部件上。
随着汽车智能化的发展，汽车传感器越来越多，传统的分布式架构逐渐掉队，由中央化架构DCU、MDC逐步替代

随着人工智能发展，汽车智能化形成趋势，目前赞助驾驶功能渗透率越来越高，这些功能的实现需借助于摄像头、雷达等新增的传感器数据，个中视频(多帧图像)的处理须要大量并行打算，传统CPU算力不敷，这方面性能强大的GPU替代了CPU。
再加上赞助驾驶算法须要的演习过程，GPU+FPGA成为目前主流的办理方案。
百度搜索“乐晴智库”，得到更多行业深度研究报告

自动驾驶芯片:GPU 的现在和 ASIC 的未来_芯片_量产互联网

着眼未来，自动驾驶也将逐步完善，届时又会加入激光雷达的点云(三维位置数据)数据以及更多的摄像头和雷达传感器，GPU也难以胜任，ASIC性能、能耗和大规模量产本钱均显著优于GPU和FPGA，定制化的ASIC芯片可在相对低水平的能耗下，将车载信息的数据处理速率提升更快，随着自动驾驶的定制化需求提升，ASIC专用芯片将成为主流。
本文以如前次序梳理车载芯片发展进程，磋商未来发展方向。

▌车载芯片的过去—以CPU为核心的ECU

ECU的核心CPU

ECU(ElectronicControlUnit)是电子掌握单元，也称“行车电脑”,是汽车专用微机掌握器。
一样平常ECU由CPU、存储器(ROM、RAM)、输入/输出接口(I/O)、模数转换器(A/D)以及整形、驱动等大规模集成电路组成。

ECU的事情过程便是CPU吸收到各个传感器的旗子暗记后转化为数据，并由Program区域的程序对Data区域的数据图表调用来进行数据处理，从而得出详细驱动数据，并通过CPU针脚传送到干系驱动芯片，驱动芯片再通过相应的周边电路产生驱动旗子暗记，用来驱动驱动器。

即传感器旗子暗记——传感器数据——驱动数据——驱动旗子暗记这样一个完全事情流程。

分布式架构向多域掌握器发展

汽车电子发展的初期阶段，ECU紧张是用于掌握发动机事情，只有汽车发动机的排气管(氧传感器)、气缸(爆震传感器)、水温传感器等核心部件才会放置传感器，由于传感器数量较少，为担保传感器-ECU-掌握器回路的稳定性，ECU与传感器逐一对应的分布式架构是汽车电子的范例模式。

后来随着车辆的电子化程度逐渐提高，ECU盘踞了全体汽车，从防抱去世制动系统、4轮驱动系统、电控自动变速器、主动悬架系统、安全气囊系统，到现在逐渐延伸到了车身各种安全、网络、娱乐、传感掌握系统等。

随着汽车电子化的发展，车载传感器数量越来越多，传感器与ECU逐一对应使得车辆整体性低落，线路繁芜性也急剧增加，此时DCU(域掌握器)和MDC(多域掌握器)等更强大的中央化架构逐步替代了分布式架构。

域掌握器(DomainControlUnit)的观点最早是由以博世，大陆，德尔福为首的Tier1提出，是为理解决信息安全，以及ECU瓶颈的问题。

根据汽车电子部件功能将整车划分为动力总成，车辆安全，车身电子，智能座舱和智能驾驶等几个域，利用处理能力更强的多核CPU/GPU芯片相对集中的去掌握每个域，以取代目前分布式汽车电子电气架构。

而进入自动驾驶时期，掌握器须要接管、剖析、处理的旗子暗记大量且繁芜，原有的一个功能对应一个ECU的分布式打算架构或者单一分模块的域掌握器已经无法适应需求，比如摄像头、毫米波雷达、激光雷达乃至GPS和轮速传感器的数据都要在一个打算中央内进行处理以担保输出结果的对整车自动驾驶最优。

因此，自动驾驶车辆的各种数据聚拢、领悟处理，从而为自动驾驶的路径方案和驾驶决策供应支持的多域掌握器将会是发展的趋势，奥迪与德尔福共同开拓的zFAS，即是通过一块ECU，能够接入不同传感器的旗子暗记并进行对旗子暗记进行剖析和处理，终极发出掌握命令。

▌车载芯片的现在—以GPU为核心的智能赞助驾驶芯片

人工智能的发展也带动了汽车智能化发展，过去的以CPU为核心的处理器越来越难以知足处理视频、图片等非构造化数据的需求，同时处理器也须要整合雷达、视频等多路数据，这些都对车载处理器的并行打算效率提出更高哀求，而GPU同时处理大量大略打算任务的特性在自动驾驶领域取代CPU成为了主流方案。

GPUVs.CPU

CPU的核心数量只有几个(不超过两位数)，每个核都有足够大的缓存和足够多的数字和逻辑运算单元，并赞助很多繁芜的打算分支。
而GPU的运算核心数量则可以多达上百个(流处理器)，每个核拥有的缓存大小相对小，数字逻辑运算单元也少而大略。

CPU和GPU最大的差异是设计构造及不同构造形成的不同功能。
CPU的逻辑掌握功能强，可以进行繁芜的逻辑运算，并且延时低，可以高效处理繁芜的运算任务。

而GPU逻辑掌握和缓存较少，使得每单个运算单元实行的逻辑运算繁芜程度有限，但并列大量的打算单元，可以同时进行大量较大略的运算任务。

GPU霸占现阶段自动驾驶芯片主导地位

比较于消费电子产品的芯片，车载的智能驾驶芯片对性能和寿命哀求都比较高，紧张表示在以下几方面:

1、耗电每瓦供应的性能;2、生态系统的构建，如用户群、易用性等;3、知足车规级寿命哀求，至少1万小时稳定利用。

目前无论是尚未商业化生产的自动驾驶AI芯片还是已经可以量产利用的赞助驾驶芯片，由于自动驾驶算法还在快速更新迭代，对云端“演习”部分提出很高哀求，既须要大规模的并行打算，又须要大数据的多线程打算，因此以GPU+FPGA办理方案为核心;在终真个“推理”部分，核心需求是大量并行打算，从而以GPU为核心。

▌干系公司

NVIDIA

NVIDIA在自动驾驶领域的造诣正是得益于他们在GPU领域内的深耕，NVIDIAGPU专为并行打算而设计，适宜深度学习任务，并且能够处理在深度学习中普遍存在的向量和矩阵操作。
相对付Mobileye专注于视觉处理，NVIDIA的方案重点在于领悟不同传感器。

2016年，英伟达在DrivePX2平台上推出了三款产品，分别是配备单GPU和单摄像头及雷达输入端口的DrivePX2Autocruise(自动巡航)芯片(下图左上)、配备双GPU及多个摄像头及雷达输入端口的DrivePX2AutoChauffeur(自动私人司机)芯片(右上)、配备多个GPU及多个摄像头及雷达输入端口的DrivePX2FullyAutonomousDriving(全自动驾驶)芯片(下方)。

以目前的发卖情形，DrivePX2搭载上一代Pascal架构GPU已经实现量产，并且已经搭载在Tesla的量产车型ModelS以及ModelX上。

目前PX2仍旧是NVIDIA自动驾驶平台出货的主力，Tesla，Audi和ZF等对外公布DrivePX2运用在量产车上。

Xavier是DrivePX2的进化版本，搭配了最新一代的Volta架构GPU,相较于DrivePX2性能将提升近一倍，2017年年底量产。

由于多家主机厂L3级别以上自动驾驶量产车的操持在2020年旁边，而Xavier的量产操持将能和自动驾驶车的研发周期相互合营(一样平常3年旁边)，因此Xavier的互助都是有量产车落地操持的。

而对付较早与NVIDIA达成互助的车厂来说，他们在小批量测试、量产的优先级别以及可定制化空间等方面都能得到一定的上风。

目前，L4及以上的市场基本上被NVIDIA垄断，CEO黄仁勋称环球有300余家自动驾驶研发机构利用DrivePX2。

DrivePX2单价为1.6万美金，功耗达425瓦，但目前没有达到车规，按功耗和本钱看，只能小规模测试阶段利用。

四维图新

海内舆图行业龙头，向ADAS和自动驾驶进军。
公司成立于2002年，是海内首家获导航舆图制作资质的企业(目前仅13家)，为领先的数字舆图内容、车联网与动态交通信息做事、基于位置的大数据垂直运用做事的供应商之一。

其拳头业务——舆图业务，以海内60%的份额稳居垄断地位。
2017年以来，公司收购杰发科技、入股中寰卫星与禾多科技，“高精度舆图+芯片+算法+软件”的自动驾驶家当链全方位布局雏形已现。

高精度舆图:代表海内最高水平。

公司以舆图起身，目前海内高精度舆图仅两家玩家(另一家为高德)，公司深度绑定得到宝马、大众、奔驰、通用、沃尔沃、福特、上汽、丰田、日产、当代、标致等主流车企发展，占绝对上风。
2017年公司实现支持L3级别(至少20个城市)的高精度舆图，操持于2019年覆盖所有城市，并为L4的推出做准备。

公司舆图编译能力亮眼，环球首位供应NDS舆图从生产到编译环节。
此外，公司在荷兰、美国硅谷、新加坡等地设立研发中央和分支机构，互助伙伴涵盖国际主流车厂、新一代整车企业以及腾讯、滴滴、搜狗、华为等海内有名企业。

芯片:收购杰发科技布局汽车芯片。

杰发科技(2017年3月完成收购)脱胎于联发科，主攻车载信息娱乐系统芯片。

现阶段在海内后装市场市占率超70%，前装超30%(紧张为吉利、丰田等车企)，其车规级IVI芯片被多家国际主流零部件厂商采取，并操持推出AMP、MCU及TPMS(胎压监测)芯片等新一代产品。
公司通过收购杰发科技，具备了为车厂供应高性能汽车电子芯片的能力，打通从软件到硬件的关键性关卡，并与蔚来、威马、爱驰亿维等造车新势力公司达成了互助。

该芯片采取64位QuadA53架构，内置硬件图像加速引擎，支持双路高清视频输出，和四路高清视频输入，能同时支持高等车载影音娱乐系统全部功能和丰富的ADAS功能。

功能包括:360°全景停车系统、车道偏移警示系统LDW、前方碰撞警示系统FCW、行人碰撞警示系统PCW、交通标志识别系统TSR、车辆盲区侦测系统BSD、驾驶员疲倦探测系统DFM和后方碰撞预警系统RCW等。

全志科技

在今年5月的CESAsia，全志科技发布首款车规级处理器T7，同时发布基于T7的多种智能座舱产品形态。

T7是数字座舱车规(AEC-Q100)平台型处理器，支持Android、Linux、QNX系统，集成多路高清影像输入和输出，完美支持高清多媒体处理，内置的EVE视觉处理单元可提升赞助驾驶运算效率。

该款芯片虽然是首款通过车规的国产中控主机芯片，但还处于起步阶段，根据正常汽车电子芯片的生命周期，要规模运用至少须要两年韶光，而等到形成较多的用户和良好的生态还需很多资源投入以及时间的积累。

因此国产车载芯片不论在自动驾驶领域还是中控或赞助驾驶领域，想要真正形成量产与国外老牌巨子竞争，都还须要大量人力、成本和韶光。

▌车载芯片的未来—以ASIC为核心的自动驾驶芯片

ASICvsGPU+FPGA

GPU适用于单一指令的并行打算，而FPGA与之相反，适用于多指令，单数据流，常用于云真个“演习”阶段。

此外与GPU比拟，FPGA没有存取功能，因此速率更快，功耗低，但同时运算量不大。
结合两者上风，形成GPU+FPGA的办理方案。

FPGA和ASIC的差异紧张在是否可以编程。
FPGA客户可根据需求编程，改变用场，但量产本钱较高，适用于运用处景较多的企业、军事等用户;而ASIC已经制作完成并且只搭载一种算法和形成一种用场，首次“开模”本钱高，但量产本钱低，适用于场景单一的消费电子、“挖矿”等客户。

目前自动驾驶算法仍在快速更迭和进化，因此大多自动驾驶芯片利用GPU+FPGA的办理方案。
未来算法稳定后，ASIC将成为主流。

打算能耗比，ASIC>FPGA>GPU>CPU，究其缘故原由，ASIC和FPGA更靠近底层IO，同时FPGA有冗余晶体管和连线用于编程，而ASIC是固定算法最优化设计，因此ASIC能耗比最高。

比较前两者，GPU和CPU屏蔽底层IO，降落了数据的迁移和运算效率，能耗比较高。
同时GPU的逻辑和缓存功能大略，以并行打算为主，因此GPU能耗比又高于CPU。

▌ASIC是未来自动驾驶芯片的核心和趋势

结合ASIC的上风，我们认为长远看自动驾驶的AI芯片会以ASIC为办理方案，紧张有以下几个缘故原由:

综上ASIC专用芯片险些是自动驾驶量产芯片唯一的办理方案。
由于这种芯片仅支持单一算法，对芯片设计者在算法、IC设计上都提出很高哀求。

以上并非下定论目前ASIC为核心的芯片一定比GPU+FPGA的芯片强，由于目前自动驾驶算法还在快速迭代和升级过程中，过早以固有算法生产ASIC芯片长期来看不一定是最优选择。

▌干系公司

Mobileye

Intel在ADAS处理器上的布局已经完善，包括Mobileye的ADAS视觉处理，利用Altera的FPGA处理，以及英特尔自身的至强等型号的处理器，可以形成自动驾驶全体硬件超级中心掌握的办理方案。

Mobileye具有自主研发设计的芯片EyeQ系列，由意法半导体公司生产供应。
现在已经量产的芯片型号有EyeQ1至EyeQ4，EyeQ5正在开拓进行中，操持2020年面世，对标英伟达DrivePXXavier，并透露EyeQ5的打算性能达到了24TOPS，功耗为10瓦，芯片节能效率是DriveXavier的2.4倍。

英特尔自动驾驶系统将采取摄像头为先的方法设计，搭载两块EyeQ5系统芯片、一个英特尔凌动C3xx4处理器以及Mobileye软件，大规模运用于可扩展的L4/L5自动驾驶汽车。
该系列已被奥迪、宝马、菲亚特、福特、通用等多家汽车制造商利用。

从硬件架构来看，该芯片包括了一组工业级四核MIPS处理器，以支持多线程技能能更好的进行数据的掌握和管理(下图左上)。

多个专用的向量微码处理器(VMP)，用来应对ADAS干系的图像处理任务(如:缩放和预处理、翘曲、跟踪、车道标记检测、道路几何检测、滤波和直方图等，下图右上)。

一颗军工级MIPSWarriorCPU位于次级传输管理中央，用于处理片内片外的通用数据。

此外通过行业访谈调研等路子理解到，Mobileye在L1-L3智能驾驶领域具有极大的话语权，对Tire1和OEM非常强势，其算法和芯片绑定，不许可变动。

寒武纪

5月3日，寒武纪科技在2018产品发布会上发布了多个IP产品——采取7nm工艺的终端芯片Cambricon1M、云端智能芯片MLU100等。

个中寒武纪1M芯片是公司第三代IP产品，在TSMC7nm工艺下8位运算的效能比达5Tops/w(每瓦5万亿次运算)，同时供应2Tops、4Tops、8Tops三种尺寸的处理器内核，以知足不同需求。

1M还将支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速，能够完成视觉、语音、自然措辞处理等任务。
通过灵巧配置1M处理器，可以实现多线和繁芜自动驾驶任务的资源最大化利用。
它还支持终真个演习，以此避免敏感数据的传输和实现更快的相应。

寒武纪首款云端智能芯片CambriconMLU100同期发布，同时公布了在R-CNN算法下MLU100与英伟达TeslaV100(2017)和英伟达TeslaP4(2016)的比拟，从参数上看，紧张对标TeslaP4。
末了解释芯片从设计到落地运用面临的潜在风险:

地平线

2017年地平线发布了新一代自动驾驶芯片“征程”和配套软件平台方案“雨果”，同时还发布了运用于智能摄像头的“朝阳”处理器。

“征程”是一款专用AI芯片，采取地平线的第一代BPU架构，可实时处理1080p@30视频，每帧中可同时对200个目标进行检测、跟踪、识别，范例功耗1.5W，每帧延时小于30ms。
CEO余凯先容，地平线的芯片更聚焦在针对不同场景下的详细运用，比较于英伟达的方案，在功耗上低一个数量级，价格也会有更大的竞争力。

2018年亚洲CES，地平线宣告推出从L2到L4级别全系列的自动驾驶打算平台。

地平线星云，基于征程1.0芯片，能够以车规级标准知足L1和L2级别的自动驾驶的需求，能同时对行人、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准的实时监测与识别;并可知足车载设备严苛的环境哀求，以及繁芜环境下的视觉感知需求，支持L2级别ADAS功能。

地平线Matrix1.0，内置地平线征程2.0处理器架构，最大化嵌入式AI打算性能，是面向L3/L4的自动驾驶办理方案，可知足自动驾驶场景下高性能和低功耗的需求。

依托地平线公司自主研发的工具链，开拓者和研究职员可以基于Matrix平台支配神经网络模型，实现开拓、验证、优化和支配。

百度“昆仑”

7月4日百度AI开拓者大会上，李彦宏发布了由百度自主研发的中国首款云端全功能AI芯片——“昆仑”。
“昆仑”基于百度8年的AI加速器履历的研发，估量将于明年流片。

“昆仑”采取14nm三星工艺，是业内设打算力最高的AI芯片(100+瓦功耗下供应260Tops性能);512GB/s内存带宽，由几万个小核心构成。

“昆仑”可高效地同时知足演习和推断的需求，除了常用深度学习算法等云端需求，还能适配诸如自然措辞处理，大规模语音识别，自动驾驶，大规模推举等详细终端场景的打算需求。

此外可以支持paddle等多个深度学习框架，编程灵巧度高。
同时也有媒体对该产品提出疑义，紧张有以下两点:

GoogleTPU

GoogleTPU于2016年在GoogleI/O上宣告，当时该公司表示TPU已在其数据中央内利用了一年以上。
该芯片专为Google的TensorFlow(一个符号数学库，用于神经网络等机器学习运用)框架而设计。

GoogleTPU是专用的，并不面向市场，谷歌仅表示“将许可其他公司通过其云打算做事购买这些芯片。
”

今年2月，谷歌在其云平台博客上宣告的TPU做事开放价格大约为每cloudTPU(180TFLOPS和64GB内存)每小时6.50美元。

Google利用TPU开拓围棋系统AlphaGo和AlphaZero以及进行Google街景视频笔墨处理等，能够在不到五天的韶光内找到街景数据库中的所有笔墨，此外TPU也用于供应Google搜索结果的排序。

TPU与同期的CPU和GPU比较，可以供应15-30倍的性能提升，以及30-80倍的效率(性能/瓦特)提升。

Xilinx&深鉴科技

Xilinx赛灵思是FPGA的先行者和领导者，1984年，赛灵思发明了现场可编程门阵列FPGA，作为半定制化的ASIC，顺应了打算机需求更专业的趋势。

FPGA的好处是可编程以及带来的灵巧配置，同时还可以提高整体系统性能，比单独开拓芯片全体开拓周期大为缩短，但缺陷是价格、尺寸等成分。

在汽车ADAS和自动驾驶办理方案上，赛灵思的FPGA和SOC产品家族衍生出三个模块:

自动驾驶中心掌握器ZynqUltraScale+MPSoC

前置摄像头Zynq-7000/ZynqUltraScale+MPSoC

多传感器领悟系统ZynqUltraScale+MPSoC

Zynq采取单一芯片即可完成ADAS办理方案的开拓，SOC平台大幅提升了性能，便于各种捆绑式运用，能实现不同产品系列间的可扩展性，可帮助系统厂商加快在环抱视觉、3D环抱视觉、后视摄像头、动态校准、行人检测、后视车道偏离警告和盲区检测等ADAS运用的开拓韶光。
并且可以让OEM和Tier1在平台上添加自己的IP以及赛灵思自己的扩展。

深鉴科技成立于2016年，其创始团队有着深厚的清华背景，专注于神经网络剪枝、深度压缩技能及系统级优化。
2018年7月17日，赛灵思宣告收购深鉴科技。

自成立以来，深鉴科技就一贯基于赛灵思的技能平台开拓机器学习办理方案，推出的两个用于深度学习处理器的底层架构—亚里士多德架构和笛卡尔架构的DPU产品，都是基于赛灵思FPGA器件。

对付赛灵思来说，看好深鉴科技基于机器学习的软件、算法，以及面向云侧和端侧硬件架构的上风;对付深鉴科技，后期发展高昂的研发用度、高本钱的芯片设计、流片、试制、认证、投片量产，投靠赛灵思能够降落随之而来的风险，进入芯片战役的持久战。

2018年6月，深鉴科技宣告进军自动驾驶领域，自主研发的ADAS赞助驾驶系统——DPhiAuto，目前已得到日本与欧洲一线车企厂商和Tier1的订单，即将实现量产。

DPhiAuto，基于FPGA，是面向高等赞助驾驶和自动驾驶的嵌入式AI打算平台，可供应车辆检测、行人检测、车道线检测、语义分割、交通标志识别、可行驶区域检测等深度学习算法功能，是一套针对打算机视觉环境感知的软硬件协同产品。

功耗方面，可以在10-20W的功耗范围内，实现等效性能，能效比指标高于目前主流的CPU、GPU方案。
(国金证券：张帅)百度搜索“乐晴智库”得到更多行业报告。