今天下午,海内有名的人工智能独角兽公司寒武纪科技在北京举办了成立以来的首场发布会“智能时期的引领者”,发布旗下新一代智能处理器 IP 产品,并阐述公司未来芯片产品研发路线图,包括华为海思、阿里巴巴集团、遐想集团、科大讯飞、中科曙光、ARM、旷视科技、地平线等重磅互助伙伴都参加了发布会。
“寒武纪公司是中科院打算所在处理器与人工智能交叉领域超前布局的结晶。”出席发布会的中科院打算所所长孙凝晖讲到。发布会上,寒武纪公司创始人兼 CEO 陈天石揭橥了题为《迈向人工智能的寒武纪》的主旨演讲,回顾了寒武纪创立前后的历史,同时表露了寒武纪下一代 AI 芯片以及软件平台的细节和部分干系数据。

图丨寒武纪公司创始人兼 CEO 陈天石
陈天石在发布会上也分别针对终端运用与面向云真个智能办理方案,在终端部分,他展示了三款全新的智能处理器 IP:首先有面向低功耗场景视觉运用的寒武纪 1H8、拥有更广泛通用性和更高性能的寒武纪 1H16,以及面向智能驾驶领域的寒武纪 1M。
图丨拥有更广泛通用性和更高性能的寒武纪 1H16
图丨面向低功耗场景视觉运用的寒武纪 1H8
图丨面向智能驾驶领域的寒武纪 1M
而在云端,也揭橥了高性能机器学习处理器芯片“寒武纪 MLU100”以及“寒武纪 MLU200”。两款芯片紧张针对做事器真个智能处理需求,分别针对推理与演习两个用场。有别于“神经网络处理器”(NPU)的常见称呼,全新的做事器芯片产品则因此“机器学习处理器”(MLU)作为命名。未来寒武纪产品也将全面支持更多样化的机器学习运用,而不是仅止于常见的深度学习。
图丨高性能机器学习处理器芯片“寒武纪 MLU100”以及“寒武纪 MLU200”
寒武纪在发布会中也揭橥了针对终端与云真个处理器 IP,分别针对演习与推理平分歧运用处景优化,同时也为业界设计了一套针对开拓者打造的人工智能软件平台“Cambricon NeuWare”。这套平台包含了开拓、调试、调优三大部分,打造端云一体的优质开拓环境,该开拓平台构建于寒武纪发明的人工智能专用指令及的根本上,借由该平台,开拓者可以非常快速的进行跨平台运用迁移,并且同时为不同性子的云端和终端平台的运用开拓奠定坚实根本。
图丨人工智能软件平台“Cambricon NeuWare”
陈天石还描述了寒武纪智能芯片的未来路线图,寒武纪将力争在 3 年后霸占中国高性能智能芯片市场 30% 的份额,并使全天下 10 亿台以上的智能终端设备集成有寒武纪终端智能处理器,如果这两个目标实现,寒武纪将初步支撑起中国主导的国际智能家当生态。
陈天石表示,未来人工智能方法将在视觉、语音自然措辞、数据剖析、经济金融等各种运用方面大显技艺,这就哀求未来超级打算机数据中央、智好手机、嵌入式设备等要进一步智能化,而寒武纪机器学习处理器有望成为这些设备的标配。
“寒武纪是生物种类大爆发的时期,如今,也是智能技能大爆发时期,衍生不同深度学习多样化的算法,支持不同多样化的技能与运用。”寒武纪 CEO 陈天石如此表示。
过去十年人工智能复兴的发动机是“摩尔定律”,芯片规模和效能的放大带动 AI 深度学习的进展,但随着摩尔定律放缓,持续发展的动力不敷,就必须另找更有效率的办法。未来 AI 从终端到云端,都须要支持大规模 AI 运用,专门的深度学习处理器必不可缺,因此必须探求一个专门处理器办理办法,而这也是寒武纪当初发展的初衷。
寒武纪在今日发布会中强调可与 ARM 架构相互搭配的 AI 生态,并以基于寒武纪 AI 方案的 Mate 10 在产品性能与运用方面的上风作为展示重点,同时也戳穿于十月尾在中科曙光峰会中所揭橥的 Phaneron 人工智能做事器的细节,该做事器采取了基于寒武纪架构的 AI 芯片,紧张面向推理业务,在业界多数主打学习的做事器潮流中,可说是特立独行。借此推理做事器,可强化终端 AI 运用的推理反应速率,对付办理云端做事商在线做事质量的问题有极大的帮助。
图丨Phaneron——环球首款基于寒武纪芯片的 AI 推理专用做事器
其余,为了供应业界针对 AI 打算硬件一个合理估算性能的办法,寒武纪亦协同行界伙伴开拓了针对 AI 打算性能的评测软件,这软件浸染就有如安兔兔一样平常,除了剖析 AI 硬件对实行环境的兼容性,亦可合理的评测处理学习或推理时的性能表现,让业界有了可以选择得当方案的参考依据。
寒武纪的发展起源
寒武纪的前身是中国科学院打算技能研究所下的一个课题组,由陈天石、陈云霁两兄弟领导。
图丨陈云霁(右)与陈天石(左)
该课题组早在 2008 年就已经开始研究神经网络算法以及芯片设计。寒武纪第一代方案在 2012 年推出,65nm 工艺下功耗为 0.485W,面积 3.02mm²。均匀性能超过主流 CPU 核的 100 倍,但是面积和功耗仅为 1/10,表现相称惊人。
不过,当初的寒武纪有个非常直白的命名代号,叫做 DianNao,中文念做“电脑”。当初这命名不是中国人的主张,而是研究团队中的法国人的见地,不用当时已经烂大街的神经网络芯片之类的命名,反其道而行用中文取名,外国人反以为十分高大上,相称有趣。
中科院在 DianNao 的根本上开拓出 DaDianNao(第二代,大电脑,功能增强)、PuDianNao(第三代,普电脑,通用型机器学习芯片)、ShiDianNao(视电脑,图像识别处理器)、DianNaoYu(电脑语,神经网络指令集)等延伸规格,针对不同运用或目的特化。也看得出研究团队对命名规则的坚持。
寒武纪是基于对全体软硬件优化的平台,拥有成熟的硬件,以及软件接口设计,生态支持能力绝佳,且由于知识产权完备自有,不怕受制于人。
寒武纪全新云端与终端AI方案,打入更深层机器学习运用
陈天石也在发布会上也分别针对终端运用与面向云真个智能办理方案,在终端部分,他展示了三款全新的智能处理器IP:首先有面向低功耗场景视觉打算,包含打算器视觉、拍照处理以及安防监控运用的寒武纪1H8、拥有更广泛通用性和更高性能且能耗更低的寒武纪1H16,以及面向智能驾驶领域的寒武纪1M。
而在云端,也揭橥了高性能机器学习处理器芯片“寒武纪MLU100”以及“寒武纪MLU200”。两款芯片紧张针对做事器真个智能处理需求,分别针对推理与演习两个用场,目前已经试产芯片被中科曙光采取于建造Phaneron做事器,针对推理运用领域,效能达到120TFlops,相称惊人。
有别于“神经网络处理器”(NPU)的常见称呼,全新的做事器芯片产品则因此“机器学习处理器”(MLU)作为命名。未来寒武纪产品也将全面支持更多样化的机器学习运用,而不是仅止于常见的深度学习。
与 ARM、华为配合尽力,打造集成前辈 AI 打算能力的麒麟 970
寒武纪曾在华为揭橥业界首款手机 AI 处理芯片麒麟 970 时发来贺信,内容就有提到“寒武纪公司(Cambricon Technologies)研制并具有自主知识产权的”寒武纪 1A 深度学习处理器”(Cambricon-1A Processor)是国际上首个商用深度学习处理器产品,在人工智能运用上达到了四核 CPU 25 倍以上的性能和 50 倍以上的能效。
这次,麒麟 970 芯片集成寒武纪 1A 处理器作为其核心人工智能处理单元(即余承东总在发布会中所述 NPU),实现了手机受骗地、实时、高效的智能处理。
作为天下首款集成人工智能专用途理器的手机芯片,麒麟 970 将为全天下广大手机用户带来智能时期颠覆性的用户体验,引领全天下智好手机发展的新潮流。”
根据 DT 君的剖析,华为在麒麟 970 集成 NPU 的目的有二:首先是,效率问题:云端性能强大,学习快速,但学习得出来的模型是通用模型,很难针对小众有定制化的调度,并知足消费者的利用情境。若本地端硬件拥有强大的 AI 学习能力,那么就不须要把数据往云端上丢,直接在本地端处理即可,效率更高。
另一个则是隐私安全性。过去的机器学习都要把资料网络后丢往云端,若这些资料和个人生活私领域紧密干系,丢往云端就会产生隐私的争议,若手机本地端就具备了一定的机器学习能力,那么私领域的资料网络与学习就不用再摆到云端上,而是可以放在本地端,就隐私的保全方面,要比云端处理精良太多。
NPU 的性能表现更可说是业界一流。以机器学习常见的图像学习而言,传统高端桌上型处理器只能在一分钟内辨识 97 张图片,但如果通过 NPU,则每分钟可以处理的图片数量可高达 2000 张,换算每秒约 30 张,这已经达到实时处理的效果,不论是 AR 所须要的场景识别,或者是人物、工具识别,险些都可以做到所见即所得,完备不会感到延迟。
当然,过去打算架构要有强大性能,常日都要付出高昂功耗的代价,但 NPU 功耗全负载大约只有 CPU 的一半,如果以打算效率/功耗换算,大概是 0.8 TFLOPS/W,我们以 NVIDIA 推出的 V100 方案作比较,V100 约为 0.4 TFLOPS/W。NPU 的能耗效率乃至大幅超越业界顶级 AI 打算硬件,可见其架构设计的精良。
业界首款以推理为哀求,结合快速运用支配的云端做事器 Phaneron
在布局终端产品之余,寒武纪也同时与中科曙光互助,利用寒武纪架构打造出针对推理运用优化的 Phaneron 做事器。与一样平常云端 AI 做事器着重学习不同,Phaneron 针对超低延迟的推理打算做事,面向包括干系产品运用在安防监控、网络、广播媒体娱乐、制造与自动化、金融、医疗、物流交通、零售和新兴领域等运用,供应做事商更低延迟的实时 AI 做事。
其余,Phaneron 在硬件神经元虚拟化、寒武纪深度学习指令集、Caffe、MXNet、TensorFlow 等支持非常全面,可以知足更具弹性的各种 AI 打算环境的需求,且性能表现都属业界一流。
另一方面,寒武纪也帮忙中科曙光,打造出快速开拓运用的智能平台——\"大众SothisAI”。SothisAI 主打异构领悟、大略易用、弹性灵巧、可快速支配等,通过 AI 统一异构编程模型、AI 打算力动态实时分配算法、AI 根本性能函数等,快速相应和开释 AI 所需的打算力。计策上,SothisAI 将作为平台做事,支撑其通用 AI 做事,以及行业 AI 做事。
看重通用打算能力,支持紧张标准
寒武纪虽然是中国自有的 AI 打算芯片,但是在支持国际通用的 AI 打算标准方面,却一反过去中国半导体厂商有的自产自用不雅观念,反而非常积极支持,意欲将寒武纪推向天下舞台,让中国企业成为带领天下 AI 家当发展的主要龙头之一。
寒武纪目前虽然有实体芯片产品,但 IP 授权也是重头戏之一,如果要把市场做大,进而主导未来家当发展方向,争取国际客户肯定是必要的条件之一。
就以目前寒武纪的标准支持范围,不论是在终端或是云真个产品布局,主流的 TensorFlow、Caffe、Mxnet 一应俱全,当然寒武纪也提出自有的深度学习指令集和开拓环境,理论上更有利于发掘寒武纪的打算潜力。
支持国际打算标准的主要性不言可喻,就如深耕 AI 打算最悠久的 NVIDIA,虽然提出自有的 CUDA 打算环境,但也不敢怠忽对国际标准的支持,毕竟对打算方案而言,开拓环境的友善程度与支持广度,决定了未来市场的发展潜力。
至于 TensorFlow,大家潜意识里都会认为 Google 针对 TensorFlow 优化提出的 TPU 打算架构肯定会优于第三方芯片,但关键在于 TPU 所采取的脉动数组机架构已属传统架构,被当今许多深度学习 DSP 采取。寒武纪对此也相称熟习,他们早期与 Olivier Temam 教授、Paolo Ienne 教授共同揭橥于 ISCA2015 的 ShiDianNao 学术论文已经谈论过这样的架构。
陈天石表示,“Google 的 TPU 采取的是历史较旧的脉动数组机架构,多用于一样平常 DSP,但我们寒武纪则是选择了通用架构。虽然走的路不同,但还是期待能在家傍边同台竞技。”
其余,DT 君也认为,Google 推出 TPU 并非真正要与家当进行竞争,毕竟 TPU 目前的架构规模还很弘大,很难打入更多元化,比如说类似麒麟 970 这类手机运用芯片当中,而且 Google 也不打算实际售卖基于此架构的方案。反而,这更像是作为示范,向业界展示 TensorFlow 可做到多强大的打算运用,干系的核心构造和算法设计也都借由论文揭橥出来,NVIDIA 乃至也因此做出了和 TPU 极为类似的 TensorCore 构造。
以是说,支持 TensorFlow 有助于寒武纪拓展干系的市场,未来乃至可以成为寒武纪与 NVIDIA 相互反抗的武器。
紧张竞争对手为 IP 授权业者以及 NVIDIA、Intel 等AI打算硬件供货商
目前,除了售卖实体芯片产品,寒武纪目前的营收办法也包括向 IC 设计业者供应可嵌入的 IP 区块设计。以是说,就市场竞争布局而言,寒武纪实在要比市场上的竞争对手更为全面。
为何寒武纪要兼顾 IP 授权与实体芯片发卖?这紧张有两点缘故原由。
首先,IP 的授权可以有效扩大产品的运用广度,借由供应业界可灵巧调度规模的 IP 区块让客户利用到其芯片产品中,可以大大的增加寒武纪对 AI 打算生态的节制度,降落业界导入 AI 打算核心到个别产品中的难度,借此可快速扩大其影响力,毕竟若成为市场主流打算硬件,那么运用端也就必须合营针对该平台优化,这么一来也会有效增加其竞争力。
其次,若完备自营实体芯片的设计和发卖,就如 NVIDIA 和 Intel 的作法,一来须要很弘大的芯片管销体系,二来产品的设计广度也会受到紧张市场的限定,弹性就会有所欠缺,就如 NVIDIA,其 AI 打算环境紧张还是针对做事器和自动驾驶方案,还有更广大的运用无法顾及。
当然,也会有人认为这么一来授权其 IP 的客户是否有可能直接成为寒武纪的竞争对手?这个可能性不是没有,但是目前寒武纪的 IP 授权还是比较基于小规模布局的嵌入式芯片产品,自有芯片方案则是瞄准高效能深度学习的打算运用,还是有所区隔。
当然,如果客户要打造与寒武纪类似的方案,那么代表该客户可能在设计微调上或者是软件设计上有额外的优化,只要有差异化,那么对寒武纪的市场布局还是有正面帮助。
不过,也由于寒武纪包含 IP 授权与芯片发卖的的市场策略方向,紧张的 IP 供货商以及像 NVIDIA 之类的 AI 芯片业者,就无可避免的成为竞争对手。就 IP 授权方面,目前专攻 AI 打算的 IP 区块设计,紧张有 Imagination 和一些 DSP 架构供应业者,ARM 也有针对 AI 打算进行布局,但目前还未揭橥其完备针对 AI 打算的 IP,目前还是 GPGPU 兼容的办法。
但在打算硬件方面,寒武纪将与包括 FPGA 业者、GPU 业者,乃至 CPU 业者,包括 Intel、AMD、NVIDIA、Xilinx 直接竞争。而中国本土的业者,包含地平线以及深鉴科技,则是亦敌亦友的局势,地平线目前和寒武纪有互助项目,虽然地平线也有提出自己的芯片方案,但地平线紧张还是着重于算法,因此和寒武纪有着一定的互助空间。深鉴同样是专精于算法的新创公司,目前虽然紧张开拓平台还是基于 FPGA,但自有芯片很快也会推出,不过深鉴经营核心同样强调算法运用,虽然芯片产品布局多少会有重迭,但是在算法方面同样也有互助的可能。
其余,还有一家名为比特大陆的公司,其推出的自有芯片 BM1680 专精于 CNN/RNN 等深度学习打算,由于算法和芯片设计都属自有平台,因此与寒武纪也是属于竞争格局,不过比特大陆并不供应 IP 授权,以是在做事的完全性方面还是略逊寒武纪一筹。凑巧的是,比特大陆的最新发布会就在本月 8 日举办,韶光间隔如此之近让人不禁有所遐想。
寒武纪成为推动中国 AI 家当布局的关键一步
根据腾讯研究院公布的数据,中国人工智能企业数量已经达到 592 家,霸占环球人工智能企业总数的 23%,然而各种挂名 AI 的方案或产品公司可说此起彼落,但真正有核心技能的目前数量有限,而像寒武纪这种拥有从生态、芯片与软件环境优化,乃至也进行 IP 授权的全方位经营 AI 方案业者,目前可以说是中国独一无二,乃至放诸四海,也找不到可和寒武纪相提并论的存在。
有业界人士认为,顶尖企业之间的计策互助,完善的知识产权保护也是构建 AI 生态的关键成分。寒武纪在这一点上已经走在了很多海内芯片厂商的前面。寒武纪 CEO 陈天石过去曾经提到:“芯片的成败,除了本身的效率之外,生态是非常关键的环节。没有配套的运用和软件,很难在市场上得到成功。这便是为什么我们提出了国际上首个 AI 指令集。只要国产 AI 指令集立住了,中国主导天下 AI 家当的机会可能就到来了。”
由于中国对 AI 家当极为重视,更将其视为继智好手机家当、半导体家当之后的官方扶持重点家当,目前政府也提出 1500 亿美元的资金,要重点扶持此类家当的发展。
不过,值得把稳的是,过去中国智好手机家当过于着重本地市场,未能在第一韶光打入国际,致使多数手机公司遭遇发展瓶颈,且由于产品快速薄利化,干系家当链在发展之后快速崩溃,影响社会稳定。而在半导系统编制程技能方面,则是过度倚赖外来技能,自有研发的比重太低,目前 DRAM、NAND 几大关键零组件还未能自产自足,芯片代工业务也遭遇阻碍。
在 AI 家当发展方面,中国政府这次汲取了教训,不仅从最基本的算法和芯片技能核心动手,也理解支持通用标准的主要性,并且把市场目标定位在环球,对付建立生态也有更明确的认知,光是中国本土就出身了不少 AI 独角兽。
因此,就连 Google 母公司 Alphabet 主席施密特也表示,中国的人工智能技能有可能会超越美国,成为主导环球 AI 发展的核心重镇。
图丨Alphabet 主席施密特
可以说,寒武纪的产品布局占全体中国 AI 方案布局大蓝图中的核心地位,借由这次的未来产品路线图展示,以及商业策略布局,并且定下了短期目标,那便是要在 3 年内霸占中国高性能智能芯片 30% 的份额,并且同时在环球拥有 10 亿台集成寒武纪处理器的智能终端,宣示了借由寒武纪的引领,中国 AI 家当不仅要抢占先机,更要成为包含终端与云端生态中的主要一环,借此主导家当发展方向,发挥家当影响力。






