「了不起的芯片2」盘点40+公司的深度进修处理器_英伟_机能

文章目录 [+]

Nvidia

GPU

「了不起的芯片2」盘点40+公司的深度进修处理器_英伟_机能「了不起的芯片2」盘点40+公司的深度进修处理器_英伟_机能互联网

英伟达最新的 GPU NVIDIA TESLA V100 单精度浮点性能达到15 TFlops，在新的 Tensor core 架构达到 120 TFlops，是FP16乘法或FP32累加，或适应ML。

（图片来自网络侵删）

英伟达将8个board包装在他们的 DGX-1 for 960 Tensor TFlops

Nvidia Volta - 架构看点这篇文章对 Volta 架构做了一些剖析

SoC

英伟达供应 NVIDIA DRIVE™PX，这是用于自动驾驶汽车的AI车载打算机和JETSON TX1 / TX2模块，一个“自动驾驶运用的嵌入式平台”

英伟达的开源DLA

英伟达在GTC2017上宣告 XAVIER DLA 开源。
虽然我们现在仍没有看到有早期的可访问版本，希望准期在9月份发布。
从Nvidia开源深度学习加速器提及这篇文章有更多剖析。

AMD

GPU

即将推出的 AMD Radeon Instinct MI25 流传宣传 SP16 达到12.3 TFlop，或 FP16 达到 16.6 TFlops。
如果你的打算适用Nvidia 的 Tensors，那么 AMD 可能无法与之反抗。
与 AMD 的 484 GB/s比较，Nvidia的带宽为900GB/s。

Intel

Nervana

英特尔收购的 Nervana Systems 除了 Nervana Engine ASIC 外还开拓 GPU/software 方法。
可比性能现在还不清楚。
英特尔也操持通过 Knights Crest 项目整合到Phi平台。
NextPlatform 的一篇文章指出Nervana 2017年在28nm上的目标可能是55 TOPS/s。
英特尔操持在12月有一个NervanaCon，以是到时大概会公布第一批成果。

Mobileye EyeQ

Mobileye 目前正在开拓第五代SoCEyeQ®5，作为视觉中心打算机实行完备自动驾驶（Level 5）车辆的传感器，将在2020年上路。
为了知足功耗和性能目标，EyeQ®SoC的设计是最前辈的VLSI处理技能，第5代降落到7nm FinFET。

Movidius

Movidius VPU 是一个向量处理器阵列。

FPGA

Intel FPGA OpenCL 以及办理方案。

Google TPU

谷歌的TPU在性能上领先GPU，是驱动DeepMind的AlphaGo在围棋比赛中赢了人类冠军的硬件。
原来的700MHz TPU具有用于8位打算的95 TFlop或16位打算的23TFlop，而仅需40W。
这比GPU快得多，但现在比英伟达的V100慢，但不因此每W为根本比较。
新的TPU2被流传宣传具有四芯片的TPU，并且可以实现约180 TFlop。
每个芯片的性能都翻了一番，达到16位的45 TFlops。
你可以看到英伟达的V100正在缩小这一差距。
TPU或TPU2都不是开放出售。
谷歌正在使其在云端可用，TPU pod包含64个设备，最高可达11.5 PetaFlop的性能。

其他参考文章：

Xilinx

Xilinx供应“从边缘到云”的机器学习推理解决方案，并在他们的白皮书中声称自己的FPGA最适用于INT8。

虽然FPGA的性能令人印象深刻，但是供应商的较大芯片长期以来价格较高。
找到价格和性能之间的平衡是FPGA的紧张寻衅。

微软FPGA

微软将赌注放在FPGA，可以看这篇文章：“Microsoft Goes All in for FPGAs to Build Out AI Cloud”。

关于微软FPGA，《连线》发了一篇很好的特写：“Microsoft Bets Its Future on a Reprogrammable Computer Chip”

关于 FPGA in cloud，有另一篇挺好的参考文章：Inside the Microsoft FPGA-based configurable cloud

Qualcomm

高通公司环绕ML已经有一段韶光，发布了Zeroth SDK和Snapdragon神经处理引擎。
高通在Hexagon DSP利用NPE是非常合理的。

Apple

彭博社的宣布称苹果要做专用芯片，但没有透露更多细节。
不管芯片是不是被苹果作为一个主要领域，这有助于苹果与高通竞争。

Core ML是苹果目前的机器学习运用程序。

ARM

DynamIQ是ARM给予AI时期的答案，虽然它可能不是革命性的设计，但确实是主要的。

ARM还供应了一个开源的Compute Library，个中包含为Arm Cortex-A系列CPU处理器和Arm Mali系列GPU实现软件函数的综合集成。

IBM TrueNorth

TrueNorth 是与 DARPA SyNAPSE 程序一起开拓的 IBM 的 Neuromorphic CMOS ASIC。

HiSilicon（华为海思）

华为CEO余承东最近在2017年中国互联网大会上宣告，华为正在开拓AI芯片。

麒麟 for 智好手机

麒麟970可能具有一个嵌入式深度学习加速器。

Mobile Camera SoC

根据 Hi3559A V100ESultra-HD Mobile Camera SoC的简要数据表，它具有双核CNN@700 MHz神经网络加速引擎

Cambricon（寒武纪）

寒武纪致力于IP License，芯片做事，Smart Card和智能平台。

Horizon Robotics（地平线机器人）

地平线机器人已公布一个嵌入式人工智能处理器架构 Brain Processing Unit（BPU）。

Deephi（深鉴科技）

DeePhi Tech在deep compression，编译工具链，深度学习处理单元（DPU）设计，FPGA开拓和系统级的优化等方面拥有前沿技能。

Bitmain（比特大陆）

比特大陆正在为AI开拓处理器。

Wave Computing

Wave Computing 的Compute Appliance可以在3RU设备上以2.9 PetaOPS/秒的速率运行TensorFlow。

Graphcore

Graphcore在去年年底得到3000万美元投资，以支持他们的智能处理单单元（Intelligence Processing Unit，IPU）。

PEZY Computing K.K.

Pezy-SC 和 Pezy-SC2 分别是 Pezy 开拓的1024核和2048核处理器。

KnuEdge’s KnuPath

自2006年6月以来，该公司的产品页面消逝了。
不知道他们投入1亿美元的MIMD架构现在如何。
当时该架构被描述为每个ASIC具有256个小型DSP或tDSP核，以及适用于35W envelope 的稀疏矩阵处理的ARM掌握器。

更多：Tenstorrent、Cerebras、Thinci、Koniku、Adapteva、Knowm、Mythic、Kalray、Brainchip、Groq、Aimotive、Deep Vision、Deep Scale、REM、Leepmind、Krtkl、TeraDeep、KAIST DNPU、Synopsys Embedded Vision、CEVA XM6、VeriSilicon VIP8000、Cadence P5/P6/C5……

以及所有参考文章链接，请参看原文GitHub：https://basicmi.github.io/Deep-Learning-Processor-List/

点击阅读原文可查看职位详情，期待你的加入~