首页 » 智能 » Live回忆|清微智能科技CTO:可重构计算芯片的技能事理及实现难点_芯片_是说

Live回忆|清微智能科技CTO:可重构计算芯片的技能事理及实现难点_芯片_是说

admin 2024-12-27 16:46:35 0

扫一扫用手机浏览

文章目录 [+]

本文对这期分享进行部分要点总结及PPT整理,以帮助大家提前清晰地理解本场分享重点。

分享提要

Live回忆|清微智能科技CTO:可重构计算芯片的技能事理及实现难点_芯片_是说 Live回忆|清微智能科技CTO:可重构计算芯片的技能事理及实现难点_芯片_是说 智能

一、 什么是可重构芯片

Live回忆|清微智能科技CTO:可重构计算芯片的技能事理及实现难点_芯片_是说 Live回忆|清微智能科技CTO:可重构计算芯片的技能事理及实现难点_芯片_是说 智能
(图片来自网络侵删)

二、 可重构芯片的特点及实现事理;

三、 关键技能及设计难点;

四、 目前的产品成果。

以下为清微智能CTO欧阳鹏的部分直播分享实录,【AI投研邦】在不改变原意的根本上做了整理和精编。
完全分享内容请关注【AI投研邦】会员内容。

大家好!
非常愉快能够来到这里受雷锋网的约请,然后来给大家做一个技能的讲座。
我是清微智能CTO欧欧阳鹏。
清微智能科技有限公司,它是一家立志让智能无处不在的这么一家公司,公司的定位是做环球领先的这种高能效人工智能芯片及办理方案的一个供应商。

我们的核心技能实在便是可重构打算技能,这个技能是来源于清华大学,也便是来源于清华大学的可重构打算实验室,该当是从2006年我们开始做技能,到现在差不多已经做大概13年的的积累,然后我们也是说想基于可重构打算技能本身去搭建这种高能效的,然后通用的这种人工智能芯片。
在原来我们紧张是在清华大学做研究积累,然后直到去年我们出来和家当化的朋友一起成立了这么家公司,以是公司技能团队来于清华大学微电子所。
然后这个团队本身也包括一些上市公司的CTO,还有来自MVD联发科华为阿里等等均匀大概有十余年的这种软件算法和硬件履历的一些研发骨干组成。

大家实在可以看这张图,从2015年我们得到国家技能发明二等奖,到2016年至2018年我们连续推出了think系列的芯片,从think一代到二代,还有think S和think M该当是说做了全体think系列的这种芯片,然后从2018年7月我们成立清微科技,然后到今年6月份,也便是不到一年的韶光,我们完成了个中一款产品的量产。

下面我们可能就给大家先容一下我们核心的一个技能,本次直播有很多同学可能还有很多同行,以是说尽可能的以简明的办法去再去给大家讲清楚可重构打算技能以及跟同类的一个比拟。
更主要的是说在做可重构打算的时候,它存在一些什么样的难点?为什么这个难点我们研究了将近十余年,实在可以看便是人工智能芯片,实在它的发展实在是已经是不可阻挡。
从这张图也可以看出来,人工智能打算实在正从云端逐渐下沉到边缘设备和物联网节点。
也便是说无论是在云端还是在边缘端,实在都须要到人工智能都须要要有一个能具有人工智能打算的一个硬件载体。
一个下沉带来的是市场规模急剧的扩大。

从上面这张图也可以看出来深度学习芯片,实在也便是目前代表人工智能芯片出货量从2018年的1.649亿,这个可以到2015年的29亿以上,然后到了2025年规模可以达到726亿美金。
以是说人工智能芯片的发展,带来了对深度学习芯片的一个需求,我们来看一下人工智能芯片, 从目前来看,既然它的市场很大,它的规模会不断的发展,那它到底有什么样的一些需求?

我以为紧张是分三点,第一点便是它的灵巧性和可编程性的这样一个需求。
由于很多的网络都会出来,已经涌现了,而且不断的在呈现这种网络不同的连接关系,不同的网络构造,你不可能对每一款芯片去做定制化的实现,你也不可能说对新涌现的东西你能够做提前的预知,以是说你的芯片是该当具有灵巧性和可编程性的。

第二个便是神经网络本身它实在不仅仅是神经网络,所谓的CN层,第N层等,它实在还有很多非神经网络部分,比如像人脸检测和识别里面,它实在有左边这部分我们常用的这种神经网络,但是右边部分还有很多实在是非神经网络部分,也便是说对神经网络和非神经网络的高效处理,才能够使得全体人工智能算法处理达到一个很好的效果,原来的方案是说对非神经网络部分要么用定制化的实现,要么用CPU来实现,实在你的短板还是在你的非神经网络部分。

以是说人工智能芯片该当对神经网络和非神经网络都能够进行高效的处理。
这个能效从原来CPU、GPU到IPGA这些能效实在取决于他们本身的这样一个运用处景或本身的一个架构,它能效值是不高的。
当从芯片当从人工智能从云端迁移到边缘真个时候,我们可以创造在云端它实在有高算力,高能效的需求在这个边缘端,它实在有低功耗高能效的需求。

以是说随着人工智能的需求的发展,人工智能芯片高能效的需求,比如说能够到TOPS/W这样一个以上的这么一个性能,也是成为了越来越关键的一个需求。
我们可以看到人工智能的芯片的需求,实在便是灵巧性和高能效,到底我们须要一个什么样的一个别系架构?

这张PPT讲述了是说横坐标是一个灵巧性或者是通用性,他们实在是可以等价的,然后纵坐标是一个能效,我们可以看到CPU实在具有很好的灵巧性,但是它能效率很低,而ASIC的能效非常高,但是它险些没有通用性,没有灵巧性。
而FPGA、GPU和现在比如说永信的NPU,实在是在这个能效上有提升,但实在他灵巧性实在是在变差的,如果我有新的需求,我才重新的进行设计。

实在我们也看到在这个领域,在这个图里面,左上角部分有这么一个区域,这个区域是说软件和硬件可编程在实行的时候,它可以靠近S的这样一个实行效率。
在这里面我们做的研究实在就做的研究做的技能积累,实在便是我们讲的可通过打算可成果打算,便是能够打能够想去达到CPU的这样一个靠近CPU的灵巧性和达到一个靠近ASIC的这样一个实行效率。

这个技能本身实在是最近美国的DARPA,他们也提出了软件定义硬件,目的也是说软件可编程、硬件可编程,同时想去得到靠近专用电路所谓的ASIC的这样一个性能。
包括国际半导体的发展路线图,他也讲CGRA便是所谓的可重构打算,然后合在一起列为核心关键技能,美国把这个技能是列为他们的这样一个电子复兴操持的核心技能。
他们认为接下来他们技能在电子行业领导做领导地位的话,这一块是他们重中之重。
这是他们2017年提出这么一个操持,实在我们做这个技能实在是到现在,便是说反过分来看,我们这个技能实在是比他们早做了十年。

这是一个可重构的一个根本打算系统。
实在我们也可以看到可重构打算本身它有自己的一套工具链,我们叫做CGRA的一个工具链, 包括我们自己内部用的时候,我们是有一套可以兼容用户,比如说在Tensorflow去开拓,然后能够直接下沉到编译到我们芯片上的这样一套工具。

再一个便是从右图来看可重构这样打算系统实在包含了比如说像掌握单元、可通过打算阵列,还有一些存储和输入输出设备,这是一个非常根本的这么一个打算系统。

这里本来是有一个动画的,能够演示一个基本的一个过程,但是动画现在放不了,我大致说一下,比如说这里面有配置、数据,实在最右边实在列了一个流程,也便是说可重构打算,其是在正列配置的驱动下进行数据的加载,进行循环的打算,末了将结果导出是这么一个过程,在这里面实在是可以做到一次配置、多次数据打算。
一旦配置完成,它是在数据流的驱动下去完成打算。
我们可以进一步再讲细节一点,左边这个实在是可重构架构的一个根本架构,它包含了这样一个比如说存储部分,它包含一个核心的一个阵列打算部分,阵列打算有阵列的基本单元,这些单元你是可以去设计的,它可以是一些粗粒度的,也可以是一些细粒度的。

我们看右边实在便是一个程序,一个非常大略的N次迭代的循环,我们实在可以把这个循环转成数据流图,这数据流图我这里面只是列了四次迭代,比如说赤色用不同的颜色表示。
我们再往右边看,右边实在是一个从上到下的一个韶光轴表示的这么一个打算过程。
在第一个T时候我再配置一下,我可以完成一个加法运算,然后不才一时候,他和原着它一代关系往下走,从而完成一个或运算和一个减法运算。
然后此时下一次迭代的加法运算,它又可以启动。

然后以是在这里面你可以看右边实在是配置了。
原第一次T时候它是配置的一个单元,到T加一时候它已经配建了三个单元,然后到T加20克的时候,第三次迭代的加法又已经开始运算,然后第一次迭代的乘法开始启动,到了第四次往后实在全体电路已经配置完成,所有的实行过程其实在数据的驱动下去完成,也便是说只要在我配置完成往后,它已经是一个ASIC的一个实行办法。
以是你可以看到到T+30实在是已经没有配置,实在是展示了和传统打算架构的一个比拟,传统是只能指令驱动的办法,比如说左边这个图它有自己的指令, 以是这是一种指令驱动的一个实用打算模式。

我们看右图,右图是一个可重构的打算模式,可能够是说我通过配置我可以在正面上我配置不同的功能区域,一旦配置完成往后,它可以实现数据流的驱动,而到了下一个时候,我又可以把我的这个单元快速的配置身分歧的功能,在这个功能下我又可以去进行数据流的驱动,以是它是一个数据驱动动态重构的一个空间打算模式,他没有指令,它实行效率非常高,而且它充分利用了这种数据的这种局部性,然后能够快速地对数据进行打算。
它是一种靠近ASIC电路的这样实行办法。

前面讲了一下可重构打算的一个大致的一个根本系统,以及它一个基本的一个实行办法,还有和传统的打算架构的一个比拟,我们来看一看可重构打算本身它有哪些寻衅?来有哪些难点?

实在我们可以看左边是个程序,比如客户的程序或者开拓程序,然后怎么在我们的可重构的这样一个打算架构上去实行。
总的来说实在寻衅紧张有三个方面。

第一个便是说动态配置下的这样一个数据驱动的实行,如何去充分的去提高阵列的利用率,这是一个问题。

第二便是说我们是一个规则的阵列,但是实在很多运动它是非规则的,它可能有条件,有跳转,还有掌握等等,如何让它实行的时候能够提高打算能效,这是他的一个寻衅。

第三个便是你的硬件资源肯定是有限的,但是你的运用实在是无限的,或者说是一个很大的一个规模运用,如何让大规模的运用在有限的运用资源上能够很好地运行起来,这实在是映射的一个过程,如何去优化映射的一个效率就变得非常关键。

以是说可通过打算它这个寻衅,我认为紧张在以上三个方面,基本是做了这么多年的这样一个研究, 我大概举两个例子,这个例子实在是非常具有代表性,它是一个非常繁芜的一个程序。
从自身的角度来说,它实在是一个非完美的一个嵌套循环。
所谓非完美是说这个程序它有比如有单条语句,然后横插在循环体当中,嵌套是说它有多层的循环嵌套,实在我们去把这个程序去往可乘过阵列上去做的时候,实在可以看到每一个循环体它有自己的一个迭代间隔,迭代间隔实在影响实行韶光,不同的嵌套的循环都有自己的间隔,他们间隔的效率都会对本循环起浸染,但是从总的多层的循环来说,有个总的一个间隔,便是说如何折衷调配总的间隔,让整体的实行韶光最快就变得非常关键。

这里面我们实在做了一个事情,我们实在可以看把不同的子循环,我们去把它内层的循环,我们去把它间隔,把它循环体给抽出来往后,建立了一个如图B所涉家数据流图,然后我们把多层的循环,然后领悟在一起,形成一个大的一个循环体,便是由C所示,从这个层面上我们去优化调配每个子循环的迭代实行韶光和以及总的一个迭代韶光。
实在大家可以看到这个数据流图实在存在很多依赖关系的,如何让循环体总的这样一个嵌套的循环体高效的实行,这便是优化技能的这样一个东西,然后这里面涉及到怎么去调配间隔。

其余是说我们在这个里面我们做了一个压缩技能,如果循环多了往后,它会带来配置信息的冗余,我们通过这样一个压缩的技能,我们可以极限化的把配置压缩到这样一个非常小的一个片面一个片上去,从而可以让配置的效率非常高。
我们须要说在CGRA上实行韶光比较说别的,我们可以减少70%的这么一个实行韶光。
再一个便是在可重构打算本身的时候,实在你不同的这样一个程序的分割,然后在正面上去做映射,哪个单元卖力哪个逻辑,他们之间的数据通信,传输路径的长与短都会影响到能耗,以是说我们实在又做了这在能耗约束下的这么一个模型。

这个模型是说我们在CGRA上去做,我们可以将能耗减少50%。
上面实在提到了便是说可重构打算的难点,实在可通过打算我总结了三个方面,但它实在还是有很多的这种关键点在里面,我上面也举了两个例子,这是两我们做两个优化的技能,也实在一贯环绕CGRA从打算架构到工具链的映射还有优化。
实在一起下来,我们以前的实验,我们的可通过打算实验室,这个也是做将近这么多年的积累,从以是说实在很多技能实在都表示在的我们的论文当中,我们专利当中包括我们申请了将近120多个专利,还有我们揭橥的这一系列顶级的论文,还有我们出版的可重构打算的这样一个专注,还便是得到了一系列褒奖,以是说可重构打算难点,本日只是用两个例子来讲,当然还有很多的寻衅.

技能是为运用做事的,我们说做了这么多年研究往后,我们要想的是说将可通过打算技能去做家当化落地。
以是接下来我来先容一下我们从公司层面上做的两款产品。

个中一款产品叫做智能语音芯片,他代号是TX210,这是我们刚才给大家先容的已经量产的一个低功耗的一款语音芯片。
这款芯片今年出货大概有几百万,然后未来两年我们该当可以出货大概4000万颗旁边。
实在看左边TX210它的面积非常小,它功耗非常低,可以在两毫瓦旁边实行。
然后它支持主流的一些神经网络,包括你不同的位宽的1到16比特它都支持,以是说它可以运用在比如像手机可穿着设备,还有这种LT设备,还有这种智能家居方面,右边实在我们已经做的一些方案,包括我们做的一些像智能开关,智能耳机,智能摄像头,还有智好手机,该当是有些产品很快大家都可以买到相应的产品,目前这款芯片实在是在市场上还是比较属于认可的。

下一款芯片便是我们的智能视觉芯片,我认为它是一款多模芯片,它不仅仅是给视觉用,它是也可以做语音,它也支持比如像声纹比如说语音识别,它可以去做,这款芯片里面有用到我们的可重构打算引擎,它的AI的算力可以达到十个TOPS/W这么一个性能。
然后他内嵌了一个3D引擎,可以比如说像支持构造光,还有TOF,还有包括双目立体,整体功耗大概在350毫瓦旁边,这款芯片该当今年可以量产。
这款芯片实在是这可以用在很多场景,比如像智能家居场景,比如说你这个门锁都可以用,它还有智能安防,还有智能支付,由于它是有一款3D加AI,以是说它的安全性可以做得非常高。
第二是说智能机器人,这样这款芯片它有能够供应深度信息,以是在比如像导航这方面他可以去供应支持。
这款芯片实在便是定位便是说更智能更安全,还有更高的一个打算能效,这是我们TX510的芯片。

本文为部分内容和PPT,完全内容和PPT查看可进入雷锋网("大众年夜众号:雷锋网)「AI投研邦」查看;(AI芯片研究报告即将出炉,会员可免费不雅观看)

标签:

相关文章

厦门北站IT赋能,智慧交通新引擎

随着科技的飞速发展,我国交通领域正迎来前所未有的变革。作为我国高铁网络的枢纽之一,厦门北站以科技创新为驱动力,积极推动IT技术的应...

智能 2024-12-29 阅读0 评论0