越来越卷的AI“X”PU的各有所长_处置器_数据

文章目录 [+]

AI运用处景的丰富带来浩瀚碎片化的需求，基于此适配各种功能的处理器不断衍生。

CPU

越来越卷的AI“X”PU的各有所长_处置器_数据越来越卷的AI“X”PU的各有所长_处置器_数据互联网

CPU即中心处理器（Central Processing Unit），作为打算机系统的运算和掌握核心，紧张卖力多任务管理、调度，具有很强的通用性，是打算机的核心领导部件，好比人的大脑。
不过其打算能力并不强，更善于逻辑掌握。

（图片来自网络侵删）

正是由于CPU的并走运算能力不是很强，以是很少有人优先考虑在 CPU 上直接演习模型。
不过芯片巨子英特尔就选择了这么一条路。

像英特尔至强可扩展处理器这种 AI build-in 的 CPU 在支持模型演习上已经有了极大地提升，去年由莱斯大学、蚂蚁集团和英特尔等机构的研究者揭橥的一篇论文中表明，在消费级 CPU 上运行的 AI 软件，其演习深度神经网络的速率是 GPU 的 15 倍，其余比较显存 CPU 的内存更易扩展，很多推举算法、排序模型、图片 / 影像识别等运用，已经在大规模利用 CPU 作为根本打算设备。

比较价格高昂的 GPU，CPU 实在是一种性价比很高的演习硬件，也非常适宜对结果准确度哀求高兼顾本钱考量的制造业、图像处理与剖析等行业客户的深度学习模型。

GPU

GPU即图形处理器（Graphics Processing Unit），采取数量浩瀚的打算单元和超长的流水线，善于进行图像处理、并行打算。

对付繁芜的单个打算任务来说，CPU 的实行效率更高，通用性更强；而对付图形图像这种矩阵式多像素点的大略打算，更适宜用 GPU 来处理，也有人称之为人海战术。
而AI 领域中用于图像识别的深度学习、用于决策和推理的机器学习以及超级打算都须要大规模的并行打算，因此更适宜采取 GPU 架构。

多核 CPU 与 GPU 的打算网格（图中绿色方格为打算单元）

CPU和GPU还有一个很大的差异便是：CPU可单独浸染，处理繁芜的逻辑运算和不同的数据类型，但当须要处理大量类型统一的数据时，则可调用GPU进行并行打算。
但GPU无法单独事情，必须由CPU进行掌握调用才能事情。

在AI打算领域英伟达的GPU险些占到市场的绝大部分，但近几年也有不少国产企业进军高端GPU，比如沐曦首款采取7nm工艺的异构GPU产品已流片、壁仞前不久也发布了单芯片峰值算力达到PFLOPS级别的BR100，还有燧原科技、黑芝麻、地平线等公司都在向高端GPU发力。

DPU

DPU即数据处理器（Data Processing Unit），用于优化卷积神经网络，广泛运用于加速深度学习推理算法。

当CPU算力开释遇瓶颈，DPU能够卸载 CPU 的根本层运用（如网络协议处理、加密解密、数据压缩等），从而开释CPU低效运用真个算力，将CPU算力集中在上层运用。
差异于GPU，DPU紧张用于对数据解析与处理，提高数据接发的效率，而GPU则是专注于数据的加速打算。
因此，DPU将有望成为开释CPU算力新的关键芯片，并与CPU、GPU形成上风互补，提高算力天花板。

DPU还具有高性能网络接口，能以线速或网络中的可用速率解析、处理数据，并高效地将数据传输到GPU和CPU。

英伟达收购Mellanox后，凭借原有的ConnectX系列高速网卡技能，推出其 BlueField系列DPU，成为DPU赛道的标杆。
英伟达首席实行官黄仁勋也曾表示：“ DPU 将成为未来打算的三大支柱之一，未来的数据中央标配是‘ CPU + DPU + GPU ’。
CPU 用于通用打算， GPU 用于加速打算， DPU 则进行数据处理。
”

当下的DPU的市场，已经成为各个巨子和初创公司的必争之地，除英伟达等企业开始布局DPU家当外，阿里巴巴、华为在内的各大云做事商也逐渐跻身DPU行业。
其他还有芯启源、大禹智芯、星云智联、中科驭数、云豹智能等公司。

TPU

TPU即张量处理器（Tensor Processing Unit）是谷歌专门为加速深层神经网络运算能力而研发的ASIC 芯片，专用机器学习的人工智能加速处理器。

AI 系统常日涉及演习和推断过程。
大略来说，演习过程是指在已有数据中学习，得到某些能力的过程；而推理过程则是指对新的数据，利用这些能力完成特界说务（比如分类、识别等）；推理是将深度学习演习成果投入利用的过程。

有老话言，万能工具的效率永久比不上专用工具。
TPU与同期的CPU和GPU比较，可以供应15-30倍的性能提升，以及30-80倍的效率（性能/瓦特）提升。
此外，在 TPU 中采取 GPU 常用的 GDDR5 存储器能使性能TPOS指标再高 3 倍，并将能效比指标 TOPS/Watt 提高到 GPU 的 70 倍，CPU 的 200 倍。

2016年 TPU 刚刚公布时，谷歌资深硬件工程师Norman Jouppi 在谷歌Research 博客中特殊提到，TPU 从测试到量产只用了 22 天，其性能把人工智能技能往前推进了差不多 7 年，相称于摩尔定律 3 代的韶光。

IPU

IPU即图像处理单元（Intelligent Processing Unit），可以从图像传感器到显示设备的数据流供应全面支持，连接到干系设备，比如：摄像机、显示器、图形加速器、电视编码器和解码器。
干系图像处理与操作包括传感器图像旗子暗记处理、显示处理、图像转换等，以及同步和掌握功能。
采取的是大规模并行同构众核架构，同时将演习和推理合二为一，为AI打算供应了全新的技能架构，兼具处理二者事情的能力。

IPU是英国AI芯片创业公司Graphcore率先提出的观点，Graphcore的第一代IPU如今已在微软Azure云以及Dell-EMC做事器中利用，为AI算法带来了飞跃性的性能提升，也为开拓者带来更广阔的创新空间及更多创新机会。

目前，IPU正在成为仅次于GPU和谷歌TPU的第三大支配平台，基于IPU的运用已经覆盖包括自然措辞处理、图像/视频处理、时序剖析、推举/排名及概率模型等机器学习的各个运用处景。

2021年，英特尔推出了IPU技能，近日又和谷歌共同设计了新型定制根本举动步伐处理单元（IPU）芯片 E2000 ，代号为“Mount Evans”，以降落数据中央主 CPU 负载，并更有效和安全地处理数据密集型云事情负载。

NPU

CPU和GPU的制造本钱较高，功耗也比较大，加之AI场景下须要运算的数据量进步神速，一种针对神经网络深度学习的高效智能处理器应运而生，也便是NPU。

NPU即神经网络处理器（Neural network Processing Unit），它是用电路仿照人类的神经元和突触构造。
用于加速神经网络的运算，办理传统芯片在神经网络运算时效率低下的问题，特殊善于处理视频、图像类的海量多媒体数据。

与CPU、GPU处理器运行须要的数千条指令比较，NPU只要一条或几条就能完成，且在同等功耗下NPU 的性能可以达到 GPU 的 118 倍，因此在深度学习的处理效率方面上风明显。
NPU 目前较多地在端侧运用于 AI 推理打算，在云端也有大量利用于视频编解码运算、自然措辞处理、数据剖析，部分NPU还能利用于 AI 的演习。

比如在手机SoC中，CPU是卖力打算和整体折衷的，而GPU是卖力和图像有关的部分，NPU卖力和AI有关的部分，其事情流程则是，任何事情都要先通过CPU，CPU再根据这一块事情的性子来决定分配给谁。
如果是图形方面的打算，就会分配给GPU，如果是AI方面的打算需求，就分配给NPU。

NPU详细的运用有：基于人脸识别的考勤机、基于 DHN（深度哈希网络）的掌纹识别、基于图像分类的自动垃圾分类、自动驾驶汽车、自动跟焦摄像机、监视系统等。

2014年中科院的陈天石科研团队揭橥了 DianNao 系列论文，随即席卷了体系构造界，开启了专用人工智能芯片设计的先河，后来中科院旗下的寒武纪科技推出了其第一代 NPU 寒武纪 1A，并用在了华为麒麟 970 芯片中，华为也推出了自研的基于 DaVince 架构的 NPU ，阿里则推出了“含光”架构的 NPU 。

随着芯片布局办法的变革，大量异构处理器方案也不断衍生，每个芯片都对处理器性能、优化目标、所需的数据吞吐量以及数据流做出了不同的选择。
在这几大类处理器芯片中，IPU与DPU发展速率领先。
随着5G边缘云、自动驾驶和车路协同、金融打算等带来越来越多的数据量，各种“X”PU的市场代价都在不断攀升。