寒武纪宣告边缘AI芯片思元220机能优于英伟达Xavier NX两倍_寒武纪_边沿

文章目录 [+]

按照寒武纪公布的参数，思元 220 参数性能比肩英伟达去年发布的 Jetson 系统级模块——AGX Xavier 和上周发布 Jetson Xavier NX。

在功耗上胜出 AGX Xavier，在打算速率上优于 Xavier NX。

寒武纪宣告边缘AI芯片思元220机能优于英伟达Xavier NX两倍_寒武纪_边沿寒武纪宣告边缘AI芯片思元220机能优于英伟达Xavier NX两倍_寒武纪_边沿互联网

11 月 14 日机器之心，寒武纪副总裁刘道福在深圳发布思元系列边缘端 AI 芯片「思元 220」和思元 220-M.2 边缘加速卡。

（图片来自网络侵删）

思元 220 的问世, 标志着寒武纪已经具备了从终端 (寒武纪 1A、1H、1M 处理器 IP)、边缘端 (思元 220 芯片) 到云端 (思元 100、思元 270 芯片) 完全的智能芯片产品线。

最新发布的思元 220 芯片采取了寒武纪在处理器架构领域的一系列创新性技能——寒武纪最新一代智能处理器 MLUv02，实现：

最大 32TOPS（INT4）算力，而功耗仅 10W。

比拟英伟达在去年发布的 Jetson 系统级模块——AGX Xavier 和上周发布 Jetson Xavier NX。

AGX Xavier 有 10W/15W/30W 三种选择，神经网络运算输出为 32TOPS，可搪塞多达四路的 HEFC 4K 、60fps 视频流。
在功耗上有待进一步提升。

而就在上周，英伟达进一步推出 Jetson 的最新成员 Jetson Xavier NX，号称「环球最小边缘超算」。

可供应高达 14 TOPS（功耗为 10W 时）或 21 TOPS（功耗为 15W 时）的性能，能够并走运行多个神经网络，并在与 Nano 同样尺寸（70x45mm）的小巧形状中同时处理来自多个高分辨率传感器的数据。

Xavier NX 将于明年 3 月开始发售，价格 399 美元。
虽主打边缘超算，但这个价格有些让人望而生畏。

说回思元 220 ，据先容，它可供应 16/8/4 位可配置的定点运算，客户可以根据实际运用灵巧的选择运算类型来得到卓越的人工智能推理性能。

在软件方面，通过端云一体的软件平台，思元 220 连续支持寒武纪 Neuware 软件工具链，支持业内各主流编程框架，包括 Tensorflow，Caffe，mxnet，以及 pytorch 等。

思元 220 是一款专门用于深度学习的 SOC 边缘加速芯片，采取 TSMC 16nm 工艺，它具有高算力，低功耗和丰富的 I/O 接口。

基于思元 220，寒武纪前期面向市场推出小尺寸的 M.2 加速卡，未来会推出更高算力的产品形态。

思元 220-M.2

思元 220-M.2 边缘加速卡在尺寸为 U 盘大小的卡片上实现了 16TOPS（INT4）或 8TOPS（INT8）的算力。
客户可以通过标准的 M.2 接口快速支配到已有的业务中实现业务的智能升级和边缘加速办理方案。

寒武纪表示，面向未来，针对不同的场景，包括边缘打算、自动驾驶车载打算、演习等场景。
寒武纪将持续投资，推出更多的 AI 处理器，面向全场景持续供应更前辈灵巧、快速高效、性能卓越 AI 算力产品及做事。

1 边缘端为何主要

活动现场，寒武纪副总裁刘道福认为：比较数据中央打算或者说云打算，边缘打算有几个上风：

1）大幅降落传输本钱。

在很多如电力、能源等工业领域，网络条件并不好，并且通讯根本举动步伐的改造本钱很高，因此数据直接在边缘进行处理，处理完的数据直接用于边缘决策，或者有效信息传回云端集中决策，这都可以减少传输本钱。

2）大幅降落延时。

边缘打算每每具有实时的哀求，由于要对各种设备进行实时决策，而传统的云打算，由于网络延时，很难做到实时。

3）保护数据隐私和安全。

边缘打算可以无需将数据或者原始数据传回云端，从而可以大大保护数据的安全和隐私，减少数据泄露。

在昨天的宣布《继英伟达最小边缘超算，英特尔再推 10 倍提升 VPU，终端 AI 芯片创业压力加剧》里，我们也谈到，边缘智能，作为人工智能的末了一公里，很长一段韶光里被创业者视为得以绕开巨子打压的蓝海市场，但今年市场被催熟的趋势明显，英特尔Nervana、英伟达Jeston系列、以及谷歌Coral和华为鲲鹏等巨子逐步进场收割，AI芯片创业生态竞争加剧。

2 云边终三端布局

除了目前云边结合的思元系列，寒武纪在更早推出的是终端产品线：终端 IP 处理器系列。

从第一代产品，2016 年推出的首个商用深度学习处理器 Cambrion-1A，到 17 年面向打算机视觉领域专用的二代处理器 Cambricon-1H（Cambricon-1H8、Cambricon-1H16），再到延续了前两代产品完备性优点的第三代最新产品，面向本地演习的 Cambricon-1M。

采取 7nm 台积电工艺的 Cambricon-1M，性能十倍超越于已被广泛利用各大移动手机终真个 Cambricon-1A。
可以实现 5TOPS/W 能效比，单个处理器核即可支持 CNN、RNN、SOM 等多样化的深度学习模型，更进一步支持 SVM、k-NN、k-Means、决策树等经典机器学习算法。

科大讯飞就曾在发布会上表露，寒武纪处理器在语音智能处理的测试结果，显示出了能耗效率上的优胜性。
其领先于竞争对手的云端 GPU 方案至少 5 倍，语音本地识别准确率相对付传统处理器也有 9.8% 的提升。

IP 处理器成名的寒武纪在终端产品不断成熟之后，紧接着推出云端芯片，本次思元系列的前两款产品：思元 100 和思元 270。

回顾这两款云端芯片在实际利用中，均表现出如下几点共同的上风：

1）作为通用途理器，支持各种深度学习技能，支持多模态智能处理（视觉、语音和自然措辞处理），运用领域广泛；2）从指令集和架构角度来看，比较于 GPU，对付在深度学习和人工智能场景中表现出了更高的效能比；3）配套软件开拓环境完善，用户体验良好；4）为「端云一体「策略而开拓的最佳实行者。

这次发布的思元 220，更是旨在填补市场内边缘端加速方案的空缺而存在，同时也彻底完善了寒武纪产品线中边缘端芯片的空缺。

寒武纪借助由于人口成分带来的数据上风，更加善于于演习，因此多款芯片均可以看出技能上风带来的侧重点在于演习。

目前寒武纪无论是云端，终端，还是边缘芯片，都采取统一的处理器架构和指令集，以及统一的软件栈。

这三个领域的生态可以相互促进，形成正循环。
云端供应了完全的开拓，调试，调优的软件，云端开拓好的程序，可以很方便快速的支配到终端和边缘，办理终端和边缘开拓难，调试难，调优难的问题，而终端和边缘，可以积累大量的客户和开拓者，反哺于云端生态，终极实现云，边，端生态的繁荣。