成都启英泰伦科技有限公司创始人, 首席实行官何云鹏
“由于只有这样做,才让亿万的设备具备真正的智能,让亿万用户能够自主独立的用得上和用得起人工智能带来的智能做事和便利。人们也不会由于断网,不会由于没交年费而失落去对设备的利用和掌握。”何云鹏进一步指出。

在这样的初衷推动下,自2015年景立至今,启英泰伦已经和5000 多客户建立了互助关系,拥有了10000 多平台开拓者,和10万多在校学员。目前,离线语音产品装机量已经达到 2000 万年装机量,并正快速向上亿年装机量提高。
能有这样的“战绩”,是启英泰伦团队过去夜以继日地努力,并迭代三代芯片和平台所取得的成果。
七年三代芯片
作为人工智能领域紧张分支之一,语音识别智能是行业落地最早的AI运用之一,早在2010年便开始得到发展。后来,以神经网络为代表的AI技能则进一步提升了智能语音识别的效果,并逐步开始将其推向各个领域并得到运用。
但纵然如此,在何云鹏看来,语音识别芯片和算法研发面临浩瀚现实难以战胜的难题:首先便是各种运用处景繁芜的噪声(比如厨电的烟机噪声、炒菜声;客厅的电视声、音乐声;在推广发卖环节我们还会碰着会场的多人声、卖场的高音喇叭的喧华背景噪声等);其次,人类措辞种类繁多,如果考虑到遍地所言口音,险些是没有办法通过大数据演习模型来知足所有地域口音的识别;末了,人类措辞的表达非常丰富,要想在设备端侧实现对任意措辞表达的意图理解,也是一件困难巨大的任务。
“不仅如此,电子设备发展哀求每每须要在价格不变的情形具备越来越多的功能和越来越高的性能,或者在同等功能性能情形下,本钱不断降落。以是这些,对这个家当的研发职员而言,形成巨大的寻衅。为办理这些困难,启英泰伦的团队欢迎所有寻衅,在算法攻关和芯片研发两个方面同时发力,专一占领一个又一个业内难题。”何云鹏接着说。
七年三代芯片便是启英泰伦针对这些问题交出的一份答卷,其拥有的自主知识产权脑神经网络处理单元(BNPU)便是其芯片的核心。
“七年以来,我们大的技能平台BNPU(脑神经网络处理器)迭代了三次,从 BNPU1.0,BNPU2.0,到本日的 BNPU3.0 版本。我们的芯片迭代了 3 个大代,和 3 个小代(也称半代),总计六次。个中半代是在正数代根本上 BNPU 平台不变,通过功能精简达到 30%方案本钱的低落。”何云鹏解析说。
他同时指出,每一代 BNPU 的问世,都是离线语音芯片和算法的一次打破和语音运用的助推。据先容,启英泰伦的BNPU 一代实现的是端侧语音识别,是行业首款集成神经网络处理器(即一代 BNPU)的语音 AI 芯片,代表着离线语音家当运用的兴起;第二代系列芯片 CI1102/CI1103及 CI1122 芯片,集成了 2 代 BNPU,不仅实现了离线语音识别功能,还能实现离线的声纹识别和命令词自学习等个性化的功能。
何云鹏表示,启英泰伦这 5 颗芯片的迭代不仅是上述算法性能功能不断提升,集成度也在不断增加。例如在 2 代系列集成进了 Audio CODEC,Flash 等单元,以及双麦阵增强处理能力,因此方案本钱也是快速低落。“最初的一代 50 到 90 元(CI1006),1.5 代为 30 到 40 元(CI1102),2 代芯片系列 15 到 25元,2.5 代则降落到 10 元到 15 元之间。”何云鹏举例说。他同时指出,在这些芯片迭代过程中,启英泰伦产品的算法技能也在不断进步。如在正常安静家居环境下,识别准确率达到了 98%以上,对付 65dB 旁边中强环境噪声下也能有较好的识别效果。
除此以外,启英泰伦在产品的运用上也与时俱进。如推出可以根据不同人的声纹实现基于用户个性喜好的功能配置;发布有专利技能的离线命令词自学习,使得可以在无需联网的情形下,用户可以大略的教会设备识别自定义的措辞,从而能从根本上办理不同区域人们的方言口音识别问题。如公司的第二代芯片离线命令词自学习技能可以实现在轻度噪声下的良好识别。
虽然在启英泰伦等企业的推动下,离线AI语音技能发展神速,但正如何云鹏所说,全体行业仍旧存在末了几个难以战胜的问题:第一是离线语音仍旧因此命令词为主,对付命令词较少的运用倒不是问题,对付命令词多的运用,会存在用户难以记词的问题;第二是电视新闻、多人声环境以及噪声强度达到 75DB以上的繁芜强噪声环境的识别;第三离线命令词自学习的效果离大数据演习模型效果仍旧存在明显差距,使得方言问题并没有得到彻底办理。
针对这个现状,启英泰伦潜心研发了第3代BNPU,并将其运用于公司第 3代两系列的芯片上:一大系列是 3 代智能语音 MCU13 系列。一大系列是智能语音 IOT 23 系列。
两大打破,三大特点
“除继续第二代的语音识别外,第3代BNPU还支持了基于深度学习的降噪技能(深度降噪),人声分离技能(深度分离),命令词自学习2.0版本技能,以及行业首次打破性的离线NLP技能。”何云鹏在先容公司第三代产品的时候说。
据先容,启英泰伦在新一代产品实现了两大核心技能打破,一是增加了离线自然措辞语义处理,支持离线NLP;二是增加双麦深度人声分离技能,无需记住任何命令词,同时具备识别能力和理解能力,支持用户以自然的办法随心和设备交互。
首先看行业首次打破性的离线NLP方面。
在之前,业界普遍认为只有云端才能实现NLP,但启英泰伦最新的技能已经可以采取端侧智能语音芯片实现NLP,将语音处理放在端侧,既保障了用户的体验感,又能降落云端搭建和运营本钱,降落网络带宽花费,也能提升用户利用的安全性。而为了帮助下贱客户实现敏捷开拓、快速落地的目标,启英泰伦还推出了语音AI平台。该平台支持10000用户同时开拓,即时天生NLP模型,供应更自然的语音交互能力。
其次,从启英泰伦的演示我们可以看到,通过芯片的深度人声分离技能,语音模块仍旧可以良好识别到目标人声。这标志着现在的语音设备可以适应险些所有的运用处景,也包括推广环节的喧华人声场景。
至于上文谈到的 2.0 版本命令词自学习技能。据何云鹏所说,该技能对不管自然噪声,音乐噪声和电视噪声都具备良好的适应能力,在 60 到 65 分贝噪声条件下依然具备良好的识别表现,这已经非常靠近大数据演习模型的效果,厥后果已经明显的与跟随我们的同行拉开了差距。
“可以说该技能终于从功能和性能上彻底办理了方言口音的问题。该技能可以支持的词条数,可以多达 50 多条。我们的互助方乃至可以利用这个技能去开拓各种小语种的识别运用。”何云鹏见告。
基于这些打破,启英泰伦推出了具备算力更高、高度集成和算法新高三大特点的新一代芯片。
从芯片算力来看,CI130X系列芯片内置 BNPU 3.0 和支持 DSP 指令扩展的 RISC CPU 两大内核,主频高达 240MHz,并具有 640KB 系统 SRAM。这就使其不但拥有更灵巧的打算性能、还具备更强的可编程性,支持高并行向量运算。
来到芯片集成度方面,CI130X系列芯片集成了 Audio Codec 的仿照 MIC 接口,数字 PDM 麦克的DMIC 接口,通用的 ADC以及 MCU 常见的串口,PWM,GPIO 等接口。此外,芯片还还进一步集成了 4 线 Nor Flash, 3 路 LDO 的 PMU,还有高精度的 RC 振荡器等。大大简化了开拓者的设计。
末了,在算法性能方面,CI130X系列芯片支持险些全部旗子暗记处理技能和识别技能。包括单麦自适应降噪,降混响,反应肃清,DOA(语音定向),波束形成,盲源分离,语音活动检测等传统旗子暗记技能。
值得一提的是,为了知足不同的开拓者的需求,启英泰伦还按照封装不同及 Flash 容量不同供应了 5 个型号,支持更为广泛的运用处景。个中 CI1301,1302,1303 这三个芯片是SSOP24 封装芯片,管脚完备兼容,拥有10 个高速 GPIO,对应 Flash 容量分别为 1MB,2MB 和 4MB;CI1306 采取的是QFN40 封装,拥有4MB Flash和 22 个GPIO;此外,还有采取SOP16封装的CI1312,该芯片具有2MB Flash和5 个高速 GPIO。
何云鹏表示,公司这系列芯片和技能方案问世后,能将困扰语音终端已久的末了几个难关占领了,将语音识别运用带向了一个新高。
在发布语音芯片的同时,启英泰伦还推出了23 系列 AIOT 单芯片CI2305 和 CI2306 。
据介,23 系列芯片在语音的功能和性能完备与 13 系列相同,其紧张增加集成了 WIFI 和 BLE部分。形针言音+WiFi+BLE 的三合一单芯片。个中CI2305 支持离线语音+IoT,而 CI2306,还支持将语音上传,实现离线语音+在线语音+IoT 功能。何云鹏指出,与一些 WiFi 公司推出的用纯软件办法在WiFi 芯片上跑语音算法的低本钱方案比较,启英泰伦的 23 系列 AIOT 单芯片,能够实现精良的语音处理和识别表现,以及优秀的 IoT 连接传输性能。
三个阶段计策
在与半导体行业不雅观察等沟通的时候,何云鹏表示,启英泰伦的目标是创造出高度聪慧的机器人,让机器人做事人。而要实现这一点的条件在于良好自然的人机交互。基于对人性实质需求与科技发展趋势的长远深入思考,启英泰伦制订了公司的长远的三个阶段的计策方案:
第一阶段,实现智能终真个功能掌握的自然措辞交互的遍及。这个阶段的紧张特点是让所有家庭都能用得起启英泰伦的语音 AI 芯片和方案,让大多的设备都能装得起,不管什么运用处景都能听得清,不管哪个地区什么措辞都能听的懂。
第二阶段,实现智能终端聪慧做事的机器人化;这个阶段的特点是让启英泰伦的器人芯片和方案能够让设备具备听觉,视觉,触觉,显示和对话等多感深交互能力,具备强大的理解,决策,相应能力,以及自我学习发展的能力。
第三阶段,实现每个人能够终生拥有的守护精灵。到了这个阶段,设备智能化高度遍及,我们能够跨设备、跨时空,打通虚拟和现实壁障,抽取出每个用户专属的人格(或神格)的守护精灵。这个守护精灵将是人全方位的生活管家,康健安全卫士,百科知识导师,心灵陪伴
的心腹朋友。
“本日我们正处于终端语音交互运用走向遍及,多感知机器人技能芯片和技能研发积累的阶段。每个阶段都须要专一苦干,须要多次迭代,这须要 5 到 10 年的坚持。”何云鹏说。
欢迎订阅摩尔精英旗下更多"大众年夜众号:摩尔精英、半导体行业不雅观察、摩尔App\公众>
免责声明:本文由作者原创。文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。
本日是《半导体行业不雅观察》为您分享的第3121内容,欢迎关注。
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装