云知声康恒：物联网AI芯片的五大年夜趋势！｜GTIC 2019_芯片_语音

文章目录 [+]

3月15日，由智东西主理，AWE和极果联合主理的AI芯片创新峰会，在上海成功举办！
本次峰会报名参会的不雅观众覆盖了近4500家企业，到会不雅观众极为专业，个中总监以上级别占比超过62%，现场实际到会人数超过1800位。

大会现场，20位人工智能及AI芯片业界俊彦共聚一堂，系统的磋商了AI芯片在架构创新、生态构建、场景落地等方面的技能前景和家当趋势。

云知声康恒：物联网AI芯片的五大年夜趋势！｜GTIC 2019_芯片_语音云知声康恒：物联网AI芯片的五大年夜趋势！｜GTIC 2019_芯片_语音智能

▲云知声联合创始人、副总裁康恒

（图片来自网络侵删）

作为从AI技能延伸至AI芯片的创企，云知声去年5月发布了面向物联网的芯片UniOne及其办理方案雨燕。
在GTIC AI芯片峰会上，云知声联合创始人、副总裁康恒带来《Skills On Chip：物联网人工智能的落地路径》的主题演讲。

他认为，随着物联网与AI的落地，并将云真个能力下沉到设备端，原有的传统架构芯片碰着极大的寻衅，新的时期须要新的“SoC”——Skills On Chip。

为此，他提出物联网芯片应具备的五种趋势：第一，从通用架构转向AI架构，在本钱可控的条件下供应边缘打算的能力，实现更优的能效比；第二，AI芯片的设计要看重软件、硬件、场景的有机结合；第三，物联网芯片应更加看重运用的优化，而不仅仅关注芯片的性能、功耗、面积，即关注点从PPA转向APP；第四，交互方面正在经历从单模态到多模态演化的趋势；第五，边缘芯片须要和云端有效结合，实现端云互动。

这意味着在芯片设计时，我们的目光要从通用的需求变为更加垂直化、场景化的能力；其次，从芯片的本身能力到关注方案，从关注硬件本身到关注场景。

接下来的2019年以及2020年早期，云知声将会有3款芯片落地，包括今年第三季度的“蜂鸟”芯片，供应更高性价比的语音能力，“海豚”芯片结合图像和语音的能力，“雪豹”是面向车载的车规级交互芯片。

附云知声联合创始人、副总裁康恒演讲实录

康恒：我是来自北京云知声的康恒。
本日我们在物联网人工智能落地，跟芯片结合的时候提出了一个观点Skills On Chip，我先不阐明，循规蹈矩引出末了的结论。

关于物联网我就不详细讲了，这不仅仅是趋势，而是已经成为了事实。
我们更关心的是在物联网大环境、大趋势下和AI结合的一定性、规律以及我们须要做什么的问题。

刚才我在台下看海尔陈总的演讲，整体的不雅观点我非常认可，特殊是在物联网和AI结合的时候我们该当不仅仅去谈交互智能，更该当谈怎么样通过交互和用户的数据实现数据智能以及主动地为用户供应做事。
但是我也并不以为交互智能和主动智能是相互抵牾的，而是必须要结合成有机的整体。

假设今后每个人都有一个AI助手，通过不断地学习能够理解我们的利用习气，知道我们的喜好，在我们不须要主动发起指令的情形下就能供应做事给我们，这便是主动做事的观点。
但同时也有可能有一些分外的状况，或者非规律性的事宜，由用户须要向设备发起哀求，这个时候交互就成为必须的路子。

对IoT设备来讲，和过去的电脑、手机、平板等产品有非常大的差异，本日为什么说AIoT，是强行地把IoT和AI拼在统统吗？不是，而是AI已经成为物联网的必需，很多IoT的产品没有屏幕、键盘、鼠标、按纽，但随着物联网的发展，连接网络后供应给我们额外的能力、更多的做事，用户一定须要和设备进行互动的，去操作它得到做事，这便是AI存在的意义，为这些新形态的IoT设备供应新的交互办法，语音也好、图像、手势、身体措辞，乃至是表情都有可能成为新的IoT设备下的交互办法。

谈到芯片的时候不得不谈一个大趋势，本日IoT的芯片，特殊是AIoT的芯片更多在运行单一的程序，也便是一个一个的Skills在这样的芯片上运行，而不用过多地考虑同时支撑很多的运用程序，这是我们认为芯片对AIoT产生比较大的变革，于是提出了Skills On Chip的观点。

基于刚才我说的结论也有几个不雅观点支撑它，比方说从架构方面到硬件和软件的结合，到对芯片设计标准以及单模态、多模态的需求，乃至是端云结合，端和云之间的相互搭配。
这些点都须要我们考虑Skills On Chip。

第一，通用架构在AI落地的时候碰着了哪些问题？我在讲AI在IoT落地的时候更多是在讲端侧，有很多算法、需求须要在芯片上实现，有的可能是由于网络连接的问题，有的可能是由于隐私的问题等，用户不太希望很多隐私的数据被上传到互联网上再被处理，而是希望数据就在本地被处理。
实在这对本地的算力来讲是有额外哀求的，但通用芯片在这方面会有天生的毛病，如果你用Arm这样的架构，或者是其他的通用架构算力是不敷以支撑的，或者须要比较大的面积芯片去支撑，这实在便是我们看到通用的架构对本地算力的支撑呈现出不敷的地方。

大概语音的处理不是对芯片算力哀求最高的交互办法，可以看图像的处理，包括更多的新数据维度。
同时我们也要考虑做出来的端侧产品是否能够知足用户对本钱的须要，现在我们考虑的并不是做事器的芯片、云真个芯片。
如果我们在传统的家电上须要加好几百块钱才能实现智能交互功能，我想没有用户乐意去买单，以是本钱这件事情也非常主要。
基于刚才的情由，我们认为在端侧上实现智能必须要有新架构去支撑，现有的通用架构是不敷以支撑的。

第二，从软件的角度来讲，虽然我们在芯片上可以加一些相对通用的处理单元，比如说NPU、GPU。
但是一个运用程序还是有蛮多的算法须要在这些打算单元上运行的，如图展示的便是比较范例的语音交互流程，在这当中可以看到有一些算法像反应肃清、语音合成、语音识别、自然语音处理等。
SOC上有CPU和NPU，那么哪一部分须要运行在CPU上？哪些部分须要运行在NPU上？或者不同算法在NPU上运行哪个部分，我们如果不能对这一块儿有深入的理解，如果你只是关注芯片本身，而不关注软件，或者不关注这两部分进行有机的结合，芯片也不能被设计的非常好，这也是其余一个抵牾。

如果要做到比较好的芯片设计须要我们不仅仅关注芯片设计，同时也要有AI算法的背景，乃至是要知道一些运用处景的东西。
就像我刚才举的完全语音交互的例子，实在这是运用处景的体验，如果简大略单只是把语音识别的算法设计在芯片上形成电路，不懂场景芯片也没有达到我刚才所说的目的。

第三，从PPA到APP，这是什么意思呢？PPA是很多芯片专业职员关注的数据，指的是性能、功耗、面积，这是所有做芯片必须去关心的，面积意味着本钱。
和动辄就运行几十个APP的通用芯片不同，我们的物联网芯片本身运行的运用程序没有那么多，芯片须要在这个运用上去做专有的设计以及优化。
物联网的芯片设计该当从关注PPA到更加关注APP（运用程序）。

这意味着什么呢？意味着我们在设计芯片的时候要把目光从通用的需求变到使芯片更加垂直化、场景化；其次，从芯片的本身能力到关注方案，从关注硬件本身到关注场景。

第四，交互方面还该当把稳到一个非常明确的趋势，从单模态到多模态。
所谓的单模态是只用单一的技能（像语音、图像）办理交互问题，人和人之间的交互该当是一些不同的交互办法的结合，有声音、表情、手势。
如果本日看智能音箱的话可以打不是那么恰当的比方，本日的智能音箱相称于听力不怎么好的瞎子，只能听得见但看不见。
或者乃至这个人没有跟音箱说话，背过身跟其余的同事互换的时候，智能音箱溘然被唤醒然后回应，这是非常诡异的事情，这也是多模态为什么一定要被运用在交互过程中，这也是IoT芯片必须要办理的问题，不能只处理单一维度的数据。

第五，独立到协同。
我们的设备不应该只是单一的掌握，而是说设备之间必须被有效地连接起来，相互分享数据，相互协作给到用户场景化的体验。
这个时候芯片须要和云端进行有效的结合，这便是我们一贯在强调的“端云互动”。

基于以上的情由，我们认为在IoT方面运用的AI芯片交互须要考虑Skills，芯片厂商也好、办理方案厂商不应该仅仅供应芯片，也不应该仅仅供应硬件，我们也须要在设计芯片的时候考虑新的数据维度以及考虑端云互动的问题，这样我们把芯片、IoT、AI、云统一考虑起来，这便是本日所要表达的观点——Skills On Chip。

我也先容一下云知声在Skills On Chip这件事情上取得的进展以及在做的事情。
云知声在2018年已经发布了面向行业的第一款物联网人工智能芯片，代号为雨燕，今年会有更多的芯片向外界发布。
相对来讲在技能上往前走，便是从语音到图像，往多模态的方向走的更远更深，比方说我们自主研发的DeepNet是深度学习加速器，会从1.0走向2.0，算力会更加丰富。
第一代只支持LSTM以及CNN面向语音的构造，DeepNet2.0将会支持RNN、DNN、图像，包括可重构打算以及支持算法的处理，总之是往新的架构不断地往前演进。
还有一些新的创新点，比方说在图里展示的是自主研发的人体识别、物理识别，在FPGA仿照上已经能够比较好地运转。

如果我们去做多模态的处理，特殊像图像、人脸识别，一定是须要做ISP的处理（图像预处理），在ISP方面我们和来自哈佛的技能团队BlinkAI互助，他们的算法借助了深度学习，在我们DeepNet上可以比较好地加速ISP，更好运作，并且供应更好的效率以及功耗。

刚才提到由于我们有DeepNet2.0，不论是打算能力、效能、算法都有提升，其次在语音技能层面也有非常大的打破。
这展示的是超听限，完备超过了人类听觉的极限，音量已经超过了100分贝，并且噪声和人的声音在一个方向上，这对很多传统的算法提出了极为严苛的寻衅，但本日这种技能在算法和DeepNet2.0的架构上已经完备实现。

谈一下端云结合的事情，这也是Skills On Chip里非常主要的一点。
芯片和物联网结合往后一定不可以自己独立的运转，会涉及到算力分配的问题。
在语音交互里会常常碰着的场景、技能难题是断句的问题，意思是假设我说，“我想听一首歌”，如果你现在对着智能音箱说这句话中间是不连续的，有比较长的停顿，现在的智能音箱是搞不定的，由于他看到中间有比较长停顿后，后面就停掉不处理了，音箱听到了“我想”两个字，会回答你一堆“我也想你”，但实在这并非用户真正想要的。

真正想听懂用户的问题，这须要放在云端来做，芯片和云真个关系必须要联系起来，这便是举的非常大略例子，见告大家在端云互动方面我们也有很多事情去做。

如图是云知声在AI芯片方面的路线图，2018年云知声发布了第一款面向IoT的人工智能芯片雨燕，接着在2019年以及2020年的早期也会同步有三款芯片，包括2019年三季度Hummingbird（蜂鸟），这是及其优惠性价比很高的产品。
Dolphin（海豚）是结合图象和语音，让产品不仅仅能听懂，摆脱“听力不怎么好的瞎子”局势。
Leopard（雪豹）是面向车载的车规级语音交互芯片，不仅仅是语音交互还有一些图像方面的交互，当然我们更关注在交互方面。
以上是我本日禀享的话题，感谢大家！