智能驾驶家当链由感知层、决策层、实行层组成。感知层的车载感知系统紧张包括摄像头、超声波雷达、激光雷达、毫米波雷达等;路侧赞助系统紧张包括高精舆图、卫星定位、惯性导航和V2X技能等。决策层紧张包括ADAS算法、车载芯片、车载存储器、高精舆图、云平台。实行层紧张包括电子驱动、电子转向、电子制动、灯光。平台层紧张包括大数据、智能驾驶办理方案、传统车联网、智能座舱。终端组成紧张包括车载OBU、路测单元RSU、手机APP、边缘打算。
随着智能驾驶行业的发展,智能驾驶功能日益繁芜,主流智驾赞助功能渗透率稳步提升,车道保持赞助、紧急制动赞助、自适应巡航、盲区监测、车道居中赞助、并线赞助、自动变道赞助、自动停车入位、影象停车等功能逐渐落地。智能驾驶系统对传感器、算力需求日益兴旺。智能驾驶系统既须要大量的算力,也须要多种类型的打算资源,范例的智能驾驶系统处理流程如下。
智能驾驶系统是一种能够自主感知、决策和实行行驶任务的车辆掌握系统。智能驾驶的等级划分常日基于国际标准化组织(ISO)的标准,分为L0到L5六个等级。这些等级反响了自动驾驶系统的成熟度和自动化程度。以下是每个等级的详细描述:

L0:无自动化。驾驶员全权卖力驾驶过程,没有任何自动化功能参与。这是传统驾驶办法,不涉及自动驾驶技能。
L1:赞助驾驶功能。车辆供应部分自动化功能,如自适应巡航掌握、自动停车等,但驾驶员仍需承担紧张的驾驶任务和任务。自适应巡航掌握是一种智能化的巡航系统,能够根据前方路况自动调度车速和车辆行驶姿态,减轻驾驶员的驾驶压力。而自动停车则是一种自动停车赞助系统,能够在车辆找到得当的停车位后自动完成停车过程,无需驾驶员操作方向盘、油门和刹车等。此外,车道保持功能也是L1级别自动驾驶的一个主要组成部分,它可以通过摄像头和传感器识别道路边界,自动调度车辆行驶轨迹以保持车辆在车道内稳定行驶。这些功能能够赞助驾驶员完成部分驾驶任务,提高驾驶的便利性和安全性。
L2:部分自动化。车辆可以在特定条件下自主完成某些驾驶任务,紧张包括自适应巡航、自动停车、车道保持、变道赞助和自动变道功能等,这些功能能够在一定程度上减轻驾驶员的驾驶压力,提高驾驶的便利性和安全性,驾驶员仍需监控驾驶环境并准备接管。个中,自适应巡航和自动停车功能在L1级别自动驾驶中已经涌现,而在L2级别中得到了进一步的提升和完善。此外,车道保持功能在L2级别自动驾驶中也更加智能化和成熟,能够自动识别道路边界并调度车辆行驶轨迹,保持车辆在车道内稳定行驶。变道赞助和自动变道功能则能够帮助驾驶员在得当机遇自动完成变道操作,提升行车安全。
L3:条件自动化。在特定环境下,车辆可以在大部分韶光内自主驾驶,驾驶员不必始终保持把稳力,但须要在系统要求时及时接管。这个级别的自动驾驶可以在特定情形下完成车辆周边环境的识别和驾驶,并根据网络到的数据进行自主决策和实行相应的操作。除了常规的功能外,还包含了更多繁芜场景的自动停车功能、高速路况的自动驾驶以及影象式导航等更为高等的自动驾驶功能。详细来说,它能在特定的场景下实现车辆的自动识别车道、自适应巡航、自动变道等功能,乃至在高速公路上自动完成超车动作。此外,还可以根据导航信息自主方案出行路线,并在特定情形下完成自主超车等动作。
L4:高度自动化。车辆可以在各种环境和条件下自主驾驶,驾驶员在大多数韶光可以不必参与驾驶,系统可以在特定情形下自主处理繁芜路况。在某些情形下,驾驶员可能不须要任何操作。智能驾驶功能紧张有自适应巡航、自动停车、交通拥堵赞助、车道偏离预警和车辆主动避障等功能。当车辆处于繁芜环境或不愿定情形时,它能自动识别车道并处理紧急事宜,如自动变道、自动避让等。此外,它还可以根据导航信息自主方案出行路线,并在特定情形下自主完成驾驶任务,如自动驶入高速公路等场景。总的来说,L4级别的自动驾驶系统已经具备了高度的智能化和自主决策能力。
L5:完备自动化。这是最 高等别的自动驾驶,车辆可以在任何环境和条件下完备自主驾驶,驾驶员在车内或车外都可以完备分开驾驶任务。车辆可以像机器人一样自主行驶和操作。完备自主驾驶:L5级别自动驾驶系统能够在各种道路和环境中完备自主驾驶,无需任何人工干预。自主方案路线:系统可以根据导航目标自主方案最优路线,并自动选择道路、调度速率、避让障碍物等。智能感知和决策:通过高清舆图、激光雷达、摄像头等多种传感器,系统能够全面感知周围环境,并实现自主决策和判断。繁芜场景处理:系统能够处理繁芜场景下的驾驶任务,包括高速公路、市区道路、雨雪景象等环境,并具备应对突发情形的能力。安全保障功能:系统具备多种安全保障方法,如自动刹车、避障、车道保持等,确保搭客和行人的安全。目前许多公司和研究机构都在朝着这个目标努力研发干系技能。须要把稳的是,只管技能发展迅速,但达到L5级别的自动驾驶仍须要办理许多技能和法规方面的问题。
全体智能驾驶系统处理过程常日须要涉及以下几种类型的打算资源:
深度学习类:环境感知模块是深度学习算力利用的大户,包括常见的各种图像、激光点云检测算法,比如物体检测、车道线检测、红绿灯识别等,都会涉及大量的范例神经网络(NN)的运算。此类模块常日利用高度定制化的NN加速器来实现。
视觉处理类:此类属于打算密集型,但并非深度学习类的算法模块,比如图像旗子暗记处理(ISP)、图像金字塔(Pyramid)、畸变纠正(Rectify)、局部特色提取、光流跟踪、图像编解码(Codec)等运算。此类模块常日利用硬化的专用视觉加速器来实现低时延。
通用打算类:虽然定制化的深度学习、视觉处理加速器可以知足大部分常见的成熟的打算密集型运算,但仍旧无法覆盖全部需求。随着前沿技能的快速发展和自研技能的深入,每每还会产生相称一部分自定义的运算模块。此类模块常日也是打算密集型的操作,无法利用CPU高效实现,因此还须要通用的打算密集型处理单元(比如DSP、GPU)来实现。
逻辑运算类:此类模块包含大量的逻辑运算,不适宜利用打算密集型的处理器实现,一样平常利用通用的CPU处理器来实现。此类模块包括常见的多传感器感知领悟算法(比如卡尔曼滤波KF)、基于优化的决策方案算法、车辆掌握算法、系统层面的功能逻辑、诊断逻辑、影子模式数据挖掘功能等。
范例的智能驾驶系统算力支配参考如下图。
智能驾驶系统设计之初就得考虑芯片选型,如何在浩瀚的SoC芯片选型是一门繁芜的系统工程,不单须要考虑深度学习算力,还须要考虑CPU算力、安全、内存带宽、功耗、本钱等。大疆车载在智能驾驶核心芯片的选型上积攒了一些履历,在此予以分享。 一颗范例SoC的紧张组成:
1、CPUCPU的内部架构可以简化为如下模型。
CPU内有卖力取指/分支预测/数据转发等的Control、逻辑运算的ALU、高速缓存Cache和DRAM等存储单元。相对GPU等并走运算核心,CPU的Control单元和存储单元功能更加强大,适宜做逻辑掌握。
在车载SoC中,根据功能不同CPU又分为Safety MCU和ACPU,前者性能较弱但实时性和安全性更强,后者多核心、高主频、性能强大但实时性和安全性有所降落。
1.1、Safety MCUSafety MCU有多种常见的CPU架构,如英飞凌的TriCore、瑞萨的G3KH、ARM Cortex M7、ARM Cortex R5F。既有外置安全的MCU方案,也有内置安全的MCU方案,如德州仪器TDA4内置Cortex R5F,SoC一样平常会内置Safety MCU来提高系统的集成度。
例如,Cortex R5F MCU核心的内部架构繁芜程度参考下图,紧张特点如下:
8级流水线;
CPU主频可以支持到1.0 Ghz,远超传统MCU;
Data Processing Unit卖力各种运算和逻辑掌握;
FPU卖力浮点运算;
L1 Instruction/Data Cache是一级缓存,参考容量16KB+16KB;
Memory Protection Unit用于内存保护,保护能力有限,一样平常只能支持十几个区域的保护;
引自《DDI0460D_cortex_r5_r1p2_trm.pdf》
在Safety MCU(安全微掌握器)的设计中,一个关键的特性是采取了所谓的锁步核架构,这一架构通过成对涌现的核心——常日被称为“Primary Core”和“Shadow Core”——来实现高可靠性的操作。这种设计通过一种独特的办法确保了MCU在繁芜环境中的稳定性和安全性。锁步核技能的核心在于,两个核心在指令级别上实现了完备同步的操作,即它们在同一时候实行相同的指令,并产生相同的结果。为了确保两者的同等性,系统配备了一个“Compare”机制,该机制会周期性地比较两个核心的输出结果。如果比较结果显示两者结果相同,则MCU连续正常运行;若结果不同,则表明系统中可能涌现了缺点或故障,此时须要采纳适当的安全方法,如关闭系统或进行故障隔离。虽然锁步核架构利用了两个核心,但从打算能力的角度来看,它实际上只相称于一个核心的性能。这是由于两个核心必须保持同步,并且在任何时候都实行相同的指令。然而,这种设计上的限定换来了更高的可靠性和安全性。锁步核技能是实现MCU核心高诊断覆盖度的一种传统而有效的方法。通过在Primary Core和Shadow Core之间进行比较,系统能够在第一韶光检测到潜在的缺点或故障,从而避免它们对系统稳定性和安全性造成威胁。经由多年的实践验证,这种方法已经在微掌握器和繁芜度较低的微处理器领域展现出了其卓越的性能和可靠性。
Safety MCU除哀求CPU核心达到ASIL D外,每每会哀求内部总线、外设接口、电源等跟Main Domain隔离。否则,可能由于低安全级别的Main Domain的非常,如缺点操作外设寄存器,导致MCU Domain非常。
Safety MCU的算力一样平常利用KDMIPS(Kilo Dhrystone Million Instructions executed Per Second)表示,如Cortex R5F的算力约2 KDMIPS。
由于MCU运算和内存资源比较有限,且不支持MMU(Memory Management Unit,比MPU强大的内存管理单元),一样平常只能运行如FreeRTOS之类的小型RTOS。车载行业一样平常哀求RTOS达到ASIL D级别,常用的MCU RTOS紧张有AUTOSAR OS, SafeRTOS。一样平常没有配套的libc和STL库,对C++的支持不足友好,比较难开拓掩护繁芜软件。由于Safety MCU的软硬件的安全性和实时性都较高,一样平常用于运行整车的数据交互、诊断、掌握算法等软件。
综上,我们在进行Safety MCU选型时,除了关注Safety MCU的算力,还须要重点关注总线、外设等的隔离性,其余也须要关注片内RAM的大小。可供选型的芯片品牌就太多了,此前的撰文:《新能源汽车之大脑:主控芯片》。环球汽车MCU原厂有恩智浦、德州仪器、意法半导体、微芯、英飞凌、瑞萨、芯力能、英特尔/Mobileye、高通、英伟达、安霸、ARM、特斯拉、比亚迪半导体、杰发、芯驰、芯旺、芯擎、芯钛、黑芝麻智能、昆仑芯、后摩智能、西井科技、奕行智能、寒武游记歌、海思、地平线、爱芯元智、元视芯、兆易创新、中颖、中微半导、芯海、国芯科技、杰发科技、肇不雅观电子、美仁、辉芒微、比亚迪半导体、智芯科技、旗芯微、航顺、赛腾微、琪埔微、小华半导体、云途半导体、曦华科技、复旦微电、国民技能、极海、先楫半导体、紫光国微、蜂驰高芯、灵动微、东软载波、希格玛微电子、汇春科技、华芯微电子、爱思科微电子、凌欧创芯、峰岹科技、泰矽微、旋智科技、芯弦半导体、盛骐微、君正、士兰微、晟矽微电、耐能、芯科集成、澎湃微、恒烁、钜泉、奕斯伟、凌思微、全志、华大北斗、瑞芯微等。
1.2、ACPU常用的ACPU的架构有MIPS和ARM,但以ARM的Cortex A系列为主。比较较MCU,ACPU的架构更繁芜、主频更高、Cache和RAM性能更优,整体性能更强。
例如,Cortex A72 ACPU核心的内部架构繁芜程度参考下图,比Safety MCU要繁芜许多,相同主频下算力约为Cortex R5F的3倍,紧张升级如下:
15级流水线:- Branch prediction可以提升分支预测的成功率;- Decode可以支持多条指令并行解码;- Dispatch可以支持同时发射多条指令;- Interger execute / Adv SIMD and FP / Load store等多个实行单元可以并行事情;
可以支持更高的CPU主频,如2.0 GHz;
Instruction / Data Cache是一级缓存,参考容量48KB+32KB;
二级缓存一样平常较大,参考容量1MB,可极大降落指令和数据Cache Miss的概率,减少对DDR的访问;
支持MMU,可实现内核态和用户态之间、不同进程之间的地址隔离,提高内存访问的安全性;
引自《cortex_a72_mpcore_trm_100095_0003_06_en.pdf》
对L2+系统,除哀求ACPU核心达到ASIL B外,常用外设一样平常也哀求达到ASIL B,如IPC/DMA/CSI,详细硬件安全级别哀求依赖功能安全分解。
ACPU的算力一样平常利用KDMIPS表示,如Cortex A72的算力约11 KDMIPS。ACPU的算力取决于利用的CPU核心的架构和CPU的主频,一样平常架构越新支持的主频越高,常用CPU核心算力信息参考如下。
以AE结尾的ACPU Core可以支持锁步,实现ASIL D功能安全级别,如Cortex-A65AE。未来L3~L4系统会对ASIL D ACPU算力有越来越多的需求。
ACPU不仅主频高,资源充足,还具备运行大型操作系统如Linux的能力,为智能驾驶系统供应了强大的打算平台。在L2+级别的智能驾驶系统中,功能安全哀求每每对操作系统提出了ASIL B级别的严格标准。在这种情形下,QNX或VxWorks等操作系统成为了首选。这些操作系统不仅支持多进程并发实行,而且每个进程都拥有独立的地址空间,实现了进程间的有效隔离。这种设计确保了系统的稳定性和安全性,纵然某个进程崩溃,也不会影响到其他进程的正常运行。同时,这些操作系统还支持智能驾驶系统中成百上千个线程的繁芜调度。通过高效的线程管理机制,系统能够充分利用ACPU的多核性能,实现快速相应和高效处理。这对付实现智能驾驶系统的各种繁芜功能,如传感器数据的预处理、加速器的调度、感知领悟、导航方案等至关主要。
ACPU在智能驾驶系统中的运用不仅限于软件模块的支配。随着NN(神经网络)算力的增加,ACPU须要处理更多的传感器数据、更高分辨率的相机图像以及更繁芜的场景和功能。为了知足这些需求,ACPU的算力也在不断提升。现在,ACPU能够支持更多高分辨率传感器数据的预处理、深度学习模型的前后处理、更繁芜的感知领悟功能以及轨迹预测和行为方案等任务。这些功能的实现都离不开ACPU强大的打算能力和高效的处理速率。此外,ACPU还配套了功能安全认证的libc和STL库等开拓工具,为上层软件的开拓供应了极大的便利。这些工具不仅提高了开拓效率,还确保了软件的安全性和可靠性。
综上,ACPU的选型须要重点关注算力,同时须要留神外设和操作系统的功能安全级别。此外,ACPU算力该当和NN算力相匹配,以发挥最优的系统性能。
2、并行打算2.1、DSPDSP芯片,也称为数字旗子暗记处理器,是一种具有分外构造的微处理器,比较于通用CPU,更适用于打算密集度高的处理。
在DSP芯片内部,常日采取程序和数据分开的哈弗构造,广泛采取流水线操作,同时具有专门的硬件乘法器,供应分外的DSP指令,可以用来快速的实现各种数字旗子暗记处理算法。
DSP芯片一样平常具有如下的紧张特点:
程序和数据空间分开,可以同时访问指令和数据;
片内具有快速RAM,常日可通过独立的数据总线进行连接;
有专门的硬件乘法器,在一个指令周期内可完成一次乘法和一次加法;
具有低开销或无开销的循环及跳转的硬件支持;
在单时钟周期内可以操作多个硬件地址发生器;
具有快速中断处理和硬件I/O支持;
支持流水线操作,使不同指令之间的取指、译码和实行等操作可以并行实行;
与通用微处理器比较,DSP芯片的其他通用功能相对较弱一些。DSP构造示图如下。
通过独立的指令总线和数据总线与外部数据存储进行连接,外围常日会配置L1和L2 cache,提高数据存取效率。
内部紧张分为程序掌握单元(PCU)、地址发生单元(AGU)和数据打算单元(DALU),外加一些地址寄存器和数据寄存器。每个处理单元都是独立的硬件模块,通过指令流水将各个模块并行起来处理,提高DSP的处理能力。
在DSP评估过程中,运算速率是DSP芯片的一个最主要的性能指标,常日有如下几个方面的考量:
数据位宽长度;
单周期内的乘累加个数;
寄存器个数;
单周期内同时可处理的指令个数;
内联指令丰富程度;
外围SRAM大小;
随着DSP在图像、音频和机器学习领域的运用,芯片厂商对DSP也同样做了新场景的适配和支持,如TI的C71 DSP,除了支持常见的标量运算和矢量运算,还增加的矩阵乘加速器(MMA),进一步的提升了DSP的专用能力,让开发者更随意马虎进行NN模型支配。
业内有名的DSP芯片厂要包括德州仪器、亚德诺等。也有多家国产DSP芯片进军汽车市场,包括进芯电子、中科昊芯等。个中进芯电子已经推出了32位浮点DSP芯片AVP32F335系列产品,中科昊芯即将推出HXS320F280039C、HXS320F28379D等32位浮点RISC-V DSP芯片产品。
2.2、GPUCPU的功能模块多,适宜繁芜的运算场景,大部分晶体管用在掌握电路和存储上,少部分用来完成运算事情。GPU的掌握相对大略,且不须要很大的Cache,大部分晶体管被用于运算,GPU的打算速率因此大增,拥有强大的浮点运算能力。
CPU与GPU架构比拟示意图当前的多核CPU一样平常由4或6个核组成,以此仿照出8个或12个处理进程来运算。普通的GPU就包含了几百个核,高真个有上万个核,这对付处理大量的重复处理过程有着天生的上风,同时更主要的是,它可以用来做大规模并行数据处理。
在运用方面,GPU适宜前后打算步骤无依赖性、相互独立的打算场景,很多涉及到大量打算的问题基本都有这种特性,比如图形学的打算、挖矿和破解密码等,这些打算可以分解为多个相同的小任务,每个小任务由GPU中的单个核处理,GPU通过众核并发的办法提高同时处理小任务的个数,从而提高打算速率。而CPU更适宜前后打算步骤严密关联,逻辑依赖较高的打算场景。
GPU比较CPU有几个特点:
运算资源非常丰富;
掌握部件占得面积非常小;
内存带宽大;
内存延时高,比拟CPU利用多级缓存缓解延时,GPU采取多线程的办法处理;
GPU处理须要数据高度对齐;
寄存器资源极为丰富;
实际CPU与GPU最大的差异是带宽,CPU像法拉利,跑的很快,但假如拉货,就不如重卡。GPU像重卡,跑的烦懑,但一次拉货多。有些货可以全部打包装车运输,如这些货都来自一个地方,大小相同,须要运输到一个地方,这便是打算密集型任务。有些货弗成,比如这些货要去不同地方,体历年夜小不一,不能多个打包,只能多次运输,这便是掌握密集型任务。CPU在缓存、分支预测、乱序实行方面花了很多精力,用大量寄存器实现这些功能,担保了高速率,频率一样平常都远高于GPU,每次速率很快,但大量寄存器占用大量空间,考虑到本钱以及半导体的基本定律(单颗die面积不超过800平方毫米,否则良率会连忙低落),CPU的核心数非常有限,每次能带的货很少。GPU相反,不考虑分支预测与乱序实行,用最快的寄存器代替缓存,构造大略,晶体管数量少,可以轻易做到几千核心,每次能带的货很多,但速率烦懑。以是,相对来说,GPU更适宜处理分支少,数据量大,打算大略且重复的运算任务。
2.3、深度学习能力广义上来说,只要能够运行人工智能算法的芯片都叫做深度学习芯片。但是常日意义上的深度学习芯片,指的是针对深度学习算法做了分外加速设计的芯片。
常日来说,深度学习芯片普遍以OPS(Operations Per Second)为单位来评估深度学习的理论峰值算力。OPS的物理打算单位是乘积累加运算(Multiply Accumulate, MAC),是在微处理器中的分外运算。1 MAC = 2 OPS。实现此运算操作的硬件电路单元,被称为“乘累加器”。这种运算的操作,是将乘法的乘积结果bc和累加器a的值相加,再存入累加器a的操作:a ← a + bc
深度学习算力理论值取决于运算精度、MAC的数量和运行频率。对付定点和浮点打算单元共用核心的加速器,可大致简化为INT8精度下的MAC数量在FP16精度下等于减少了一半,FP32再减少一半,依次类推。例如,假设芯片内有512个MAC运算单元,运行频率为1GHz,则INT8的算力为512 2 1GHz = 1TOPS(Tera Operations Per Second),FP16的算力为0.5TOPS,FP32的算力为0.25TOPS。
常日,各大芯片厂商宣扬的TOPS每每都是运算单元的理论值,而非全体硬件系统的真实值。实际运行起来,真正的有效算力可能只有理论值的30%算力,乃至更低。这里就涉及到“算力利用率”的观点。比如说,某个神经网络模型须要的理论算力是1TOPS,而实际运行的SoC的标称算力是4TOPS,那么利用率只有25%。以下是特斯拉、Mobileye、英伟达、华为、地平线芯片的算力比拟表。
以ResNet-50及MobileNet V1网络在SoC A和SoC B上的运行数据为例,实际的有效算力会由于图片分辨率、网络构造差异等缘故原由而不同。
这又是什么缘故原由呢?常日来说,实际的有效算力紧张受两方面的影响:1)处理器的打算架构:从上表可以看到,纵然是同一款SoC,对不同网络构造的利用率差异也非常大。这是由于深度学习加速器本身是高度定制化的打算架构,只有实行和加速器特性比较匹配的网络构造才能发挥出较高的利用率。
2)存储带宽:存储带宽决定数据搬运的速率。如果存储带宽跟不上打算速率,则数据无法及时到达打算单元,导致处理器的打算单元空置,从而导致处理器的算力利用率大打折扣。智能驾驶运用的处理场景常日具有图像分辨率大、并行样本量(batch size)小、网络构造小的特点,这对付存储带宽的哀求常日会更高。
同汽车的动力指标,马力不如百公里加速韶光更真实反响整车动力性能;同理,有效算力比理论算力更能反响芯片实际性能。以是,在SoC选型时须要重点关注SoC全部系能够供应的有效算力。
2.4、算力多样化需求在深度学习推理端,各家芯片每每都会根据自家的神经网络推理框架设计对应的NN处理器,各种TPU/NPU/DPU…层出不穷,芯片厂家根据神经网络特点,通过定制化的设计处理器,使得软硬件的适配度更高,从而提高芯片算力的利用率。
市场上,除了NN处理器,像高通/德州仪器等公司的车载芯片,在SoC上配备了GPU/DSP/CV加速器等通用算力处理器来提高车载芯片的处理能力和算法开拓的扩展性。
在智能驾驶系统中,大部分的打算可以通过深度学习处理器来完成。但是,对付一些算法开拓能力较强的公司来说,会根据实际的业务场景需求,来设计自己的神经网络构造,芯片厂商供应的NN处理器的算子库无法知足他们的需求,每每存在一些自定义算子的开拓。其余,ISP、多传感器领悟、定位与建图等功能还会涉及一些非深度学习的视觉算法的实现。此时,车载芯片上的GPU/DSP/CV加速器将可以很好的补充这部分算力需求。
DSP能够供应低功耗的矢量处理能力,比较于CPU,可以利用DSP的SIMD指令很好的应对并行度高,数据连续性较好的算法。对付并行度高,但是数据连续性较差的算法,如果支配在DSP上,将对IO带宽带来很大的寻衅,无法充分发挥DSP的打算能力,但是GPU的高并发特点,可以很好的应对这种算法。同时,GPU的图像处理能力能够知足智能驾驶场景中渲染和可视化的需求。
综上,SoC选型时,须要根据业务需求,合理方案和分配算力,实现SoC各个模块折衷高效互助,而非只关注深度学习算力。
3、安全3.1、网络安全(Cybersecurity)随着UNECE WP29 R155法规、ISO/SAE 21434标准的发布,海内也紧随着发布了一系列车载网络安全干系的国标、法规,包括网络安全技能干系的、流程干系的、数据保护干系的等等,这统统表明网络安全在智能网联汽车行业的重视程度在逐日提升。
网络安全机制的实现讲究纵深防御,上层包括面向做事的运用防火墙、对做事访问的鉴权和授权等,中间层包括操作系统的进程访问权限管理、文件系统加密、以太网防火墙、安全通信、调试接口管控、安全审计等,底层包括安全启动、安全升级、安全存储、密钥管理等根本功能。在芯片选型时,关于网络安全每每会考虑如下方面:
芯片的封装。只管即便选择BGA封装的芯片。
芯片防信道攻击的能力。目前很多侧信道攻击的手段可以很轻易获取到芯片运行时的关键资产,例如密钥。
芯片的调试接口。例如JTAG,可通过某种硬件机制永久关闭,或者可通过软件安全机制掌握芯片调试接口的开关。
芯片的安全启动。安全启动一样平常起始于芯片的BootRom,通过校验固件的署名,来防止固件被恶意修改,确保了固件的完全性。
芯片的安全运行环境。该运行环境紧张用于管理芯片运行时的关键资产,例如芯片的安全配置、密钥等,并通过硬件来实现安全算法加速做事。
芯片的内存保护单元。例如MMU或MPU,该单元一样平常集成在处理器中,由运行在处理器上的操作系统进行配置,实现运行态的内核/进程/线程的地址虚拟化和数据隔离。
芯片唯一SN。一样平常会用于绑定、认证等安全业务。
除了以上技能哀求之外,在芯片选型时,也须要考虑供应商网络安全资质的哀求,例如是否有CSMS管理体系。
3.2、功能安全(FuSa)众所周知 “智能驾驶、安全第一”。SoC作为智能驾驶掌握器的核心,其安全性能是确保终极交付安全产品的关键。因此在SoC芯片的设计选型中,必须把功能安全作为核心指标进行评估:
SoC芯片支持的功能安全完全性等级(ASIL)是否知足终极产品的安全等级需求;
SoC芯片的安全设计是否匹配当前的产品的功能安全观点;
SoC芯片是否全面考虑支持不同驾驶自动化等级产品运用;
为了实现上述目标,同时须要对SoC供应商的功能安全的设计和开拓能力进行全面评估:
对SoC的安全设计观点进行评估,包括安全需求、安全状态、故障容错韶光间隔等;
对SoC的安全机制设计进行评估,包含诊断机制、自检机制、安全隔离和冗余设计等;
对SoC的安全剖析结果进行评估,包括定性安全剖析、定量安全剖析和干系失落效剖析结果等;
对SoC的开拓工具链的鉴定报告进行检讨,包括工具软件的置信度评估结果,软件工具开拓过程评估等;
对厂商供应的SoC干系的安全审核、认证和评估结果进行检讨,包括是否是独立的第三方审核和评估,评估范围、评估报告的等;
功能安全的级别跟SoC的功能安全目标干系。评估时须要细分SoC内部各个模块的功能安全等级,从软件和硬件维度,确认SoC的功能安全设计是否能够全面、有效的知足自家产品的安全需求。在产品运用层面,还须要全面评估产品引入功能安全设计后,潜在的SoC算力需求增加、通信带宽增大、存储容量需求增加等方面的变革,确保SoC安全功能设计能够在项目中完全落地。
4、其他4.1、内存带宽SoC内部的CPU、NN加速器、GPU等除了实行指令外,还会从DDR读取指令和读写数据。但DDR的访问不能单周期完成,范例的访问延时100ns+。只管Cache在一定程度上可以缓解DDR的访问延时问题,但考虑到多核心并发、随机访问DDR,DDR带宽每每会成为CPU和各个加速器运行的瓶颈。例如,假设NN加速器处理一帧图像,50ms用于DDR数据的加载和存储,50ms用于在数据运算,此时帧率是10Hz;如果DDR的带宽减半,此时须要100ms用于DDR数据的加载和存储,50ms用于在数据运算,此时帧率为6.7Hz。可见,DDR带宽可以间接影响各个处理器和加速器的运行的效率。
常用的单通道(32bit) DDR的频率和带宽参考如下。
如下图为内存多通道交织的例子:如果只利用一个通道,对DDR的访问是单通道串行的;如果CPU同时连接到4通道的DDR,4个通道之间的访问可以并发,提高DDR带宽。
综上,除了关注DDR的单通道带宽外,还须要重点关注DDR的通道数,如理论上双通道的DDR带宽是单通道的2倍。
4.2、功耗和成本相同的芯片规格,芯片的工艺会直接影响到芯片的功耗,如7nm和16nm 30T算力的SoC功耗大约为15W和30W。算力的增加同样会增加功耗,如7nm 30T和200T算力的SoC功耗大约为15W和100W。功耗的大小又会影响到构造和散热,较高的功耗须要增加风扇、尺寸、铜管、材料等,进一步增加域掌握器的本钱。
算力的增加也意味着芯片本钱的增加,如200T算力的SoC的价格约为30T算力的SoC的7倍,以是在选择芯片规格的时候也要重点关注对算力的真实需求,过多的预留可能会导致本钱的摧残浪费蹂躏。
4.3、丰富的IO接口资源自动驾驶的主控处理器须要丰富的接口来连接各种各样的传感器设备。目前业界常见的自动驾驶传感器紧张有:摄像头、激光雷达、毫米波雷达、超声波雷达、组合导航、IMU以及V2X模块等。
对摄像头的接口类型紧张有:MIPI CSI-2、LVDS、FPD Link等;
激光雷达一样平常是通过普通的Ethernet接口来连接;
毫米波雷达都是通过CAN总线来传输数据;
超声波雷达基本都是通过LIN总线;
组合导航与惯导IMU常见接口是RS232;
V2X模块一样平常也是采取Ethernet接口来传输数据。
除了上述传感器所需IO接口外,常见的其它高速接口与低速接口也都是须要的,比如:PCIe、USB、I2C、SPI、RS232等等。
4.4、芯片的生态(工具链)芯片全体软件的工具链或者对一些算法的开拓是不是能知足客户的需求。也便是说芯片的生态怎么样,是否具备一个良好的生态系统能够支撑客户做可落地化的开拓,也是主机厂或Tier1在选择芯片时候的主要考量成分之一。
根据盖世汽车研究院数据显示,2023年高通座舱域控芯片装机量超226万颗,市场占比近六成。排在高通之后的同样是从消费电子芯片领域跨界而来的AMD,其2023年座舱域控芯片装机量近57.6万颗,市场占比超15%。这紧张来自于为特斯拉代工的和硕与广达,对应车型为Model 3与Model Y。
瑞萨排位第三,2023年座舱域控芯片装机量近32.8万颗。德赛西威是紧张客户,其超20万套座舱域控采取的瑞萨的M3或H3。除德赛西威外,这两款芯片也用于安波福、佛吉亚、华阳通用的座舱域控产品中,配套量居高的车型包括艾瑞泽8、哈弗H6等。英特尔、三星、德州仪器也都在10万级以上,个中英特尔近76%座舱域控芯片配套于东软的座舱域控产品;三星则紧张供应LG;德州仪器紧张供应安波福。芯擎科技凭借60,152颗的装机量,拿到了“第七”的排位,高于英伟达与恩智浦。据悉,该年度“龍鹰一号”紧张配套北斗智联和亿咖通的座舱域控产品,涉及车型领克08 EM-P、睿蓝7等。华为这次排位第十,麒麟芯片2023年装机量为21,923颗,紧张配套阿维塔11、阿维塔12等车型。
2023年都有哪些企业推出了智能驾驶芯片?1、蔚来汽车:神玑NX90312023年12月23日,蔚来汽车在2023 NIO DAY上,发布新车ET9的同时,也带来了首款自研智能驾驶芯片神玑NX9031,蔚来汽车也成为继特斯拉、零跑汽车之后,又一家推出自研自动驾驶芯片的汽车企业。据先容,神玑NX9031采取5nm车规工艺制程,有超过500亿颗晶体管,支持32核CPU。蔚来旨在用一颗自研芯片实现目前业界四颗旗舰智能驾驶芯片的性能,使得效率和本钱更优。
2、星宸科技:SAC8904、SSC87022023年12月22日,星宸科技正式发布新一代ADAS芯片及办理方案SAC8904、SSC8702,结合2022年推出的SAC8539、SAC8542芯片,以及将于2024年发布的SAC8902,2025年发布的SAC8916、SAC8950等方案,构成完全的行泊一体自动驾驶办理方案。个中,2023年发布的SAC8904集成16KDMIPS 4A55 CPU,4TOPS NPU。星宸科技ADAS办理方案可实现对ACC、LDW、LKA、AEB、NOA等行车场景,APA、RPA、AVP等停车场景,CMS、DMS、OMS、IMS等座舱智能感知场景全覆盖,知足市场对车载智能视觉单点极致化,以及ADAS L1~L3级、性能最优化、性价比最高的需求。3为旌科技:VS919、VS919L
在VS909的根本上,2023年12月22日,为旌科技正式发布VS919、VS919L为旌御行系列芯片。个中,VS919L采取64bit LPDDR4内存带宽设计,集成ASIL-D功能安全MCU,最大支持三路800万像素摄像头接入,同时供应12Tops AI算力,紧张面向单芯片行泊一体及CMS+流媒体后视镜场景的运用。VS919在如上性能根本上,将AI算力提升至24Tops,知足更大算力需求,支持单芯片行泊一体域控(高速NOP)或行泊一体+CMS域控运用开拓(单芯片8V、双芯片11V)。据厂家先容,如上3颗芯片直接跳过流片环节,目前均已量产。
3、黑芝麻智能:C1200系列黑芝麻智能此前已推出西岳二号A1000智能驾驶芯片,目前处于落地阶段。其产品副总裁丁丁认为,2023年是L2+、L2++行泊一体办理方案放量元年,因此,黑芝麻智能加速了这一领域的布局,并于2023年4月7日推出“武当”系列芯片,该系列芯片包含面向L2+智能驾驶场景的C1200系列芯片办理方案。C1200系列芯片正式亮相于2024年CES展会上,个中,C1236为面向行泊一体的智能驾驶芯片,搭载Arm Cortex-A78AE车规级高性能CPU核和Mali-G78AE车载GPU,据官方信息,目前已出样片。黑芝麻智能同步公布了支持自动停车、L2++自动驾驶、智能座舱、智能大灯、安全系统、CMS等多域领悟的舱驾一体方案C1296。
4、芯驰科技:V9P芯驰科技分别于2019年、2020年推出了V9L/F、V9T等多款自动驾驶芯片,而操持于2022年、2023年推出的V9U、V9S自动驾驶芯片至今仍未看到。不过,原操持于2022年发布的V9P则延后至2023年4月正式发布,这是一款针对L2+行泊一体的域控处理器,CPU性能高达70KDMIPS、GPU达200GFLOPS、整体AI性能达20TOPS,可实现AEB、ACC、LKA等ADAS功能和赞助停车、影象停车、360°环视等功能。市场信息同时显示,V9P于2023年下半年量产。值得把稳的是,目前芯驰科技的重心或已转向X系列智能座舱芯片领域,其表露的2023年量产车型中,X9系列、E3系列、G9系列均已实现装车,但V9系列上车情形未见表露,芯驰科技内部估量,到2025年霸占海内15%的智能座舱市场份额。
5、爱芯元智:M55、M762023年7月,爱芯元智宣告正式入局智驾芯片市场,并带来基于爱芯智眸®AI-ISP和爱芯通元®稠浊精度NPU两大自研核心技能推出的M55和M76两个系列智驾芯片,分别瞄准L2 ADAS、L2+高速NOA等市场。据理解,M55系列已于2022年完成车规认证,致力于打造成熟的方案和商业化落地,已有两款搭载M55系列芯片的车型进入大规模量产。M76系列芯片在跑Transformer算法性能和功耗两个方面处于业界领先水平,目前算力达到60TOPS,估量2024年初通过车规级认证,面向L2+级智能驾驶市场。另一款算力达100+TOPS的芯片M77系列也在同步开拓中。
6、后摩智能:鸿途™H302023年5月,后摩智能发布首颗存算一体智驾芯片——鸿途™H30,采取12nm工艺,在INT8数据精度下可实现高达256TOPS的物理算力,所需功耗不超过35W,全体SoC能效比达到7.3Tops/W,具有高打算效率、低打算延时、低工艺依赖等特点。后摩智能也成为海内率先落地存算一体大算力AI芯片的公司。后摩智能同时表露,鸿途™H30已于2023年6月份开始给Alpha客户送测。同时,后摩智能的第二代产品鸿途™H50已经在全力研发中,将于2024年推出,支持客户2025年的量产车型。
7、超星未来:惊蛰R12023年5月,超星未来发布面向多场景的全新NOVA-ADCU智能驾驶参考方案,个中,NOVA-ADCU Ultra基于两颗惊蛰R1芯片+车规级MCU设计,可实现10V5R高阶行泊一体运用。行车方面最高可支持TJP、HWP和城区NOA等功能,停车方面最高可支持AVP2.0,同时支持BEV算法支配。而支持如上方案的惊蛰R1芯片发布于2022年12月27日,采取TSMC 12nm前辈工艺,可供应16TOPS@INT8的AI硬算力和30KDMIPS通用算力,核心能效比为4TOPS/W,定位于L2+级别智能驾驶运用,精准面向量产市场。
8、酷芯:AR9341酷芯AI芯片AR9341于2023年4月通过AEC-Q100 Grade1认证,正式进入L0-L2级ADAS市场,可知足ADAS、AVM及舱内DMS/OMS等场景需求。不过这颗芯片并非发布于2023年,早在2021年就已推出,采取ISP+NPU+CPU+DSP的异构架构设计,可同步处理8路1080P全高清实时视频流,支持对各种摄像头、毫米波雷达、激光雷达等传感器采集的信息进行优化处理,并且可以结合热成像功能,从而全天候实时感知周围环境做出决策。
综上,SoC芯片选型时除了关注工艺外,也须要考虑算力带来的散热和本钱的增加。SoC芯片是组成车载域掌握器的核心器件,是智能驾驶的大脑。如何确保智能驾驶的大脑能够在相对合理的功耗和本钱下有效处理各种业务,如环境感知、定位建图、运动预测、方案掌握、影子模式等,是芯片选型的重中之重。
素材来源:DJI、芯查查、盖世汽车
元器件供需,欢迎常来 www.iczoom.com 看看。