超越英伟达V100这家以色列公司宣告了寻衅GPU的AI演习芯片_芯片_人工智能

文章目录 [+]

作者：李泽南

6 月 17 日，以色列芯片公司 Habana.ai 发布了 Gaudi HL-2000，这是一款定制化 AI 处理器。
该公司称，全新的 Gaudi 处理器性能超过了目前在演习神经网络任务中最为强大的英伟达 Tesla V100——而且性能是后者的近四倍。

超越英伟达V100这家以色列公司宣告了寻衅GPU的AI演习芯片_芯片_人工智能互联网

昨天，在北京举行的人工智能大会（O'Reilly AI Conference）上，Habana 向我们详细先容了新产品的特性。

Habana Labs 首席商务官 Eitan Medina 在活动中向我们先容了 Habana 的强大技能。

在这块芯片之上，Habana 也推出了 PCIe 4.0 接口板卡，以及一台 8 处理器的做事器。
Habana 表示，这些设备可以成为演习超大规模数据集的根本。

Gaudi 并不是 Habana 在人工智能芯片上的第一次考试测验。
这家芯片公司成立于 2016 年，在去年 9 月，Habana 曾推出名为 Goya 的人工智能推理芯片，并已拥有很多客户。
而在去年 11 月，Habana 完成了代价 7500 万美元的 B 轮融资，英特尔是其领投方。

领先的推理芯片 Goya

去年 9 月，Habana 公司推出的 Goya 人工智能芯片其实吸引了一把眼球。
其在 ResNet-50 上，四倍于英伟达 Tesla T4 的处理性能，两倍的能耗比，仅仅 1.01ms 的处理延迟让人们感想熏染了 ASIC 的强大能力。

「我们在 2018 年 9 月发布了推理芯片 Goya，并于年底将产品推向用户。
在九个月后的现在，这款产品仍旧是在市场上领先的。
」Habana Labs 首席商务官 Eitan Medina 表示。

Habana 拿出了英伟达在 GTC 上常常利用的比较办法：与目前最强劲的 GPU 比较，8 块 Tesla V100 的算力相称于 169 个传统 CPU————而相同情形下只须要 3 块 Goya 打算卡就能完成任务。

为何在更小的功耗下，Habana 的芯片有着更强的机器学习算力？答案在于架构。
「CPU 和 GPU 的架构因此办理和深度学习完备不同的任务为导向构建的，CPU 面向通用打算，GPU 面向图形处理，」Habana 首席商务官 Eitan Medina 先容道。
「在人工智能方面，GPU 的成功险些是『有时』的，由于它具有更高的并行度。
然而如果你从零开始，不雅观察神经网络的特性的话，投入足够精力，你就可以得到一个更好的架构。
」这便是 Habana 正在做的事。

Goya 是一种采取 PCIe 4.0 接口的打算卡，双槽位，全高全长，可以直接兼容现有做事器的接口，带来更强算力。
Habana 表示，目前该公司已经得到了 20 余个客户，这些公司正在评估这种新类型的芯片。

可以「无限扩展」的 AI 演习芯片 Gaudi

人工智能的演习任务须要利用大型数据集，让模型经由前向传播、反向传播不断更新权重，从而让算法展现出「智力」。
在演习模型时我们须要着重考虑准确度，同时存在大量数据吞吐及并行化的运算。

而在深度学习的推断/预测时，模型常日只须要利用前向传播，延迟成为了关注的重点。

不同的需求意味着只有利用不同种类的芯片才能在两个方面都实现高效率。
目前，人们常日利用 CPU 处理推断任务，GPU 用于演习，英伟达的 GPU 很长一段韶光是不分演习和推理的，但现在也有了 Tesla T4 这样专攻推理的芯片。

Habana 很早意识到了这一点，以是其产品线分为推理和演习。

最近推出的 Gaudi 芯片专门用于深度学习模型的演习，采取台积电 16nm 制程。
在 ResNet-50 模型的演习中，其每秒可以处理 1650 张图片（batch = 64）。
在完全做事器系统条件下的比拟中，同为 650 个处理器，Gaudi 的处理能力是英伟达 Tesla V100 的 3.8 倍。

这并不是 Gaudi 唯一的上风，Habana 花费大量韶光先容了其芯片利用以太网互联的上风。
「我们认为芯片之间最好的连接办法是 RDMA，它最早只涌如今 Infinite Band 中，现在已能用于标准的以太网环境中了。
」Medina 表示。

Gaudi 是本日唯一的，可以在芯片里集成 RDMA 的芯片。
而且 Gaudi 中集成了 10 个 100GbE 带宽的 RoCE RDMA 以太网端口。
这意味着 Habana 的用户可以用常规以太网环境实现扩展。
这非常特殊，由于其它厂商都在用分外的连接办法，而 Gaudi 利用的是通用的以太网环境。

比较之下，英伟达的 Tesla V100 只有 1 个 100 Gb RDMA Nic，还须要有 PCIE Switch 进行互连——而 Habana 的产品把网络端口集成在芯片内，可以实现更强的并行化。

并行处理便是在演习过程中把任务分解到每个处理器上，再通过高速网络把运算结果联系到一起。
Habana 的芯片通过以太网链接可以实现树状构造的层级化，达到靠近完美的吞吐效率。

「DGX-2 的 NVLink 端口扩展性有限，最大支持 16 块 GPU 的并行处理，而 Gaudi 可以支持对外的互联，做到几百块处理器的并行化。
」Medina 说道。

在大规模并走运算的情形下，Gaudi 可以实现 Tesla V100 靠近四倍的性能。
Habana 称，在单卡情形下 Gaudi 的处理速率也有 Tesla V100 的 2.7 倍，而功耗仅为后者的一半。

在 Gaudi 与 Goya 芯片推出之后，Habana 已经拥有了人工智能商业化芯片的完全办理方案。

「从零开始设计芯片」

Habana 的深度学习处理架构被称为 Tensor Processor Core（TPC），而 Goya 芯片中还集成了 GEMM 矩阵乘加单元，这可以让 Goya 处理不同类型的模型。

这家公司的开拓者们认为，人工智能芯片要在打算能力和延迟上都表现完美，而以往涌如今很多论文中「几分钟演习 ResNet」并不是真正能够运用在生产环境中的办法。

「在 ResNet-50 的演习上，批尺寸这一参数很主要。
采取 GPU 演习常日须要很大的 batch size，而 Goya 可以用很小的 batch size 实现高效率演习，在打算时可以让它设置为 1、5 和 10，这样演习延迟也可以很低。
」Eitan Medina 表示。

低延迟的体验对付自动驾驶等场景具有上风。
而在云打算环境下，目前的 AI 云做事无法对单卡再做虚拟化分配，但 Goya 由于打算的延迟很低，可以把一张 Goya 卡分成 7 个部分分给用户，并保持高效率。
这样意味着 Habana 的客户可以进一步提高利润，降落云做事价格。

由于目前的大多数深度学习模型都在 CPU 或 GPU 上完成演习，Habana 为客户供应了一套环境，可以帮助开拓者快速支配产品。
其软件名为 SynapseAI，支持 ONNX、MXNet、TensorFlow、Caffe2、PyTorch 等深度学习框架与模型交流格式。

「如果人们利用其他架构演习模型，将其支配在 Goya 的推理和预测平台上不会有任何问题。
」Medina 称。

Habana 正努力帮助构建开源社区，因此也收到了一些回报。
去年 facebook 开源的深度学习编译环境 Glow 就首发支持了 Habana 的芯片，此外，Linux 也已集成了 Goya 的驱动。

对付期待利用专用芯片处理人工智能任务的公司来说，Habana 供应的芯片可以带来最大的灵巧度。

Habana 的愿景是成为人工智能芯片领域的领导者。
这家公司目前已有 150 名员工，个中大多数为研发职员。
公司在以色列、波兰两地成立了研究中央，其余在美国加州和中国也设有分支机构。

「演习 AI 模型所需的算力每年都以指数级增长，硬件设备必须知足这种急迫需求，并大幅提高生产力和可扩展性。
凭借 Gaudi 的创新架构，Habana 可以带来业界最强的性能，结合标准以太网连接，实现无限的可扩展性，」Habana Labs 首席实行官 David Dahan 表示。
「Gaudi 将冲破人工智能演习处理器的现状。
」

未来，Habana 操持每 9 个月推出一款新产品。
明年这家公司即将推出基于 7nm 制程的新一代推理芯片。