机能提升20倍：英伟达GPU旗舰A100登场全新7nm架构安培出炉_英伟_安培

文章目录 [+]

参与：李泽南

时隔三年，英伟达最强芯片 Tesla V100 有了继任者，20 倍的性能提升其实让人有些招架不住。
虽然由于新冠疫情爆发，今年的 GTC 2020 大会也在末了时候宣告转为线上，不过人们期待 7 纳米制程英伟达 GPU 的激情亲切并没有消退。
（图片来自网络侵删）
英伟达当然理解我们的心情，在 GTC 正式开幕一天前，英伟达 CEO 黄仁勋提前放出了一段视频——在老黄美国加州 Los Altos Hills 的家中，环球最大的 GPU 正式「出炉」了：
我们说的这个「出炉」，它可真是字面意思。
事实上，黄仁勋今年的全体 GTC 大会的主 Keynote 环节都是在这个烤炉提高行的。
他还表示，这是英伟达有史以来第一个「厨房 Keynote」。
和普通家庭一样，黄老板家的厨房里也摆着「煤气灶」，显得朴实无华且呆板。
黄老板展示的安培（Ampere）架构 GPU 系统以最新英伟达 Tesla A100 芯片组成，被认为是迄今为止 GPU 算力最大的一步提升。
A100：面积最大，性能最强
详细提升了多少？还记得三年前推出、至今仍旧业界领先的 Volta 架构芯片 Tesla V100 吗？V100 用 300W 功率供应了 7.8TFLOPS 的推断算力，有 210 亿个晶体管，但 A100 的算力直接是前者的 20 倍。
「A100 是迄今为止人类制造出的最大 7 纳米制程芯片，」黄仁勋说道。
A100 采取目前最前辈的台积电（TSMC）7 纳米工艺，拥有 540 亿个晶体管，它是一块 3D 堆叠芯片，面积高达 826mm^2，GPU 的最大功率达到了 400W。
这块 GPU 上搭载了容量 40G 的三星 HBM2 显存（比 DDR5 速率还快得多，便是很贵），第三代 Tensor Core。
同时它的并联效率也有了巨大提升，其采取带宽 600GB/s 的新版 NVLink，险些达到了 10 倍 PCIE 互联速率。
随着安培架构涌现的三代 Tensor Core 对稀疏张量运算进行了特殊加速：实行速率提高了一倍，也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算，现在你无需修正任何代码量化了，直接自动演习即可。
A100 也针对云做事的虚拟化进行了升级，由于全新的 multi-instance GPU 机制，在仿照实例时，每块 GPU 的吞吐量增加了 7 倍。
终极在跑 AI 模型时，如果用 PyTorch 框架，比较上一代 V100 芯片，A100 在 BERT 模型的演习上性能提升 6 倍，BERT 推断时性能提升 7 倍。
图 2. 比较 Tesla V100 和 Tesla T4，A100 GPU 在 BERT 演习和推理上的性能
「放弃 CPU」的超级打算机
芯片能力的提升，是为了追上本日 AI 算力需求的爆炸性增长。
在英伟达看来，自 2017 年 5 月 Volta 架构的 Tesla V100 推出后，本日人们对付 AI 模型演习算力的需求竟增长了 3000 倍（从当年的 ResNet 发展到本日的 Megatron-BERT 等算法）。
看来制程、架构上的提升还是不足。
另一方面，对付云做事厂商来说，人们用算力来做的事总在不断变革，以是也难以设计专有优化的芯片架构。
如何探求一种可以适应更多运用方向的设计方案呢？
三年前英伟达设计 Volta 芯片时已经思考了这一问题。
本日推出的安培架构除了性能提升 20 倍，还可以实现 1-50 倍的扩展。
英伟达的体系不仅可以向更多 GPU 扩展（Scale-Up），还可以向外扩展（Scale-Out）以知足人们永无止境的算力需求。
本日的人工智能任务包括模型的演习和推断，在原有人工智能系统 DGX-1 中，我们还在利用 GPU 卖力演习、CPU 卖力推断的分工办法。
而有了 A100 芯片加持，第三代 DGX 可以把演习与推断全部交给 GPU 来完成，充分发挥前辈架构的加速能力。
这便是黄仁勋「刚刚出货」第三代 DGX：
这代 DGX A100 单节点包含 8 块 GPU，可以输出 5PetaFLOPS 的 FP16 算力（比 TFLOPS 又多了三个零，10 的 15 次方），本日就已开卖，售价 19.9 万美元。
该价格和上一代 DGX-2 基本持平（DGX-2 首发价 39.9 万美元，但内含 16 块 V100 GPU）。
首批 OEM 厂商包括浪潮、遐想、惠普，上线的云做事公司覆盖 AWS、微软、谷歌、阿里巴巴、腾讯、百度…… 大厂险些全都覆盖了。
这是天下上最大的 GPU，重 50 磅（约合 22.7 千克，相称于一个六七岁孩子的体重）。
A100 利用了本钱很高的新制程、新内存，利用起来效果如何？英伟达算了一笔账：本日的数据中央如果利用 50 个 DGX-1 系统（基于 Tesla P100）用于 AI 算法的演习，600 个 CPU 用于推断，硬件本钱是 1100 万美元，须要利用 25 个做事器机架，花费 630kW 功率。
利用最新的 DGX A100，我们只须要并联 5 个 DGX A100 系统，GPU 同时用于 AI 演习和推断，本钱 100 万美元，1 个机架，利用 28kW 功率。
「现在，你只须要十分之一的硬件本钱，二十分之一电力花费就能做同样的事。
The more you buy, the more you save !」黄仁勋说道。
「The more you buy, the more you save」，语音请自行脑补（话说黄老板不考虑注册个音频牌号吗？）。
英伟达还宣告了 DGX A100 SuperPOD，面向更大的云做事算力需求。
它可以支持 140 个 DGX A100 系统（内含 1120 块 A100），可通过 170 个 Mellanox Quantum 200G infiniBand 切换，实现 700PFLOPS 的 AI 算力。
这样一组做事器三周之内就可以建成。
英伟达自用的超级打算机「土星五号」，一贯被用于医疗影像、自动驾驶任务的演习，原版搭载 1800 个 DGX 系统，输出 1.8ExaFLOPS 算力，现在加挂了四个 SuperPOD，终极可以实现 4.6ExaFLOPS 算力，成为了天下最强劲的超级打算机之一。
在今日的发布会上，英伟达也发布了 HGX A100，在性能上，凭借第三代 Tensor Core，HGX A100 在 TF 32 精度年夜将 AI 负载的处理速率提高了 20 倍，而 FP64 精度的高性能打算速率提高了 2.5 倍。
个中，HGX A100 4-GPU 可为最苛刻的 HPC 事情负载供应近 80 teraFLOPS 的 FP64 算力。
HGX A100 8-GPU 版可供应 5 petaFLOPS 的 FP16 深度学习算力，而 16-GPU 的 HGX A100 供应惊人的 10 petaFLOPS，为 AI 和 HPC 创建了当前世界上最强大的加速扩展做事器平台。
HGX A100 的特性。
如今，AI 运用已在语音、推举系统、智能医疗、自动驾驶等任务上得到了实践。
除了算法技能的发展，人们对付算力的需求也有着猖獗的增长。
英伟达已不再把自己定义为芯片制造商，而是一家「数据中央扩展公司」（Data center scale company），这也指明了它未来重点的发展方向。
「在未来，人们利用的打算单元将会是全体数据中央。
其背后不是数个 CPU，而会是并联打算的 GPU 阵列。
数据中央须要承载大量不同的打算任务，它们有不同的需求。
我们须要演习、推断、科学打算、云游戏都能做的硬件，并对这些打算都进行加速，」黄仁勋说道。
这或许便是 GPU 的不可替代之处。
终端、自动驾驶全覆盖
安培架构如此强大，英伟达这次也没有让数据中央以外的运用方向多等，直接放出了同样利用新架构的端侧芯片 Nvidia EGX A100。
英伟达还先容了旗下最新技能的一些运用案例，个中包括 4 月尾刚刚发布的小鹏汽车 P7，以及宝马集团采取英伟达办理方案全面提升工厂物流管理水平的例子。
小鹏 P7 的 XPILOT 3.0 是海内首个搭载英伟达 Xavier 打算平台的自动驾驶量产方案，而且还搭载了两套（硬件相互独立，互为冗余）。
在软件方面，英伟达推出了自己的语音交互框架 Jarvis，Apache Spark 3.0 现在推出了针对英伟达 GPU 的机器学习支持。
英伟达今日也更新了与 GPU 相匹配的软件 CUDA 11，以支持最新的 Ampere GPU 架构、多实例 GPU（MIG）分区功能，并为任务图、异步数据移动、细粒度同步和 L2 缓存驻留掌握编程并供应 API。
英伟达还发布了深度学习超级采样技能 DLSS 2.0 版，可以利用 540p 的原画面渲染出 1080p 的效果。
「神经网络现在可以『脑补』出低画质像素没有表现出的光源，并通过前后帧的类似画面推测出当前帧该当涌现的更多细节，」黄仁勋说道。
「现在 DLSS 2.0 的效果乃至交于采取常规抗锯齿等技能渲染出来的高清晰度画面。
」
GeForce RTX 3080 Ti 还远吗？
末了，很多人关心的问题可能是：消费级显卡 GeForce RTX 在哪里？
GTC 大会之前，曾有爆料说英伟达今年三季度将会发布安培架构的 GeForce RTX 30 系列显卡，其光追效果可以提升 4 倍，低端卡也可以秒杀当前版本的 RTX Titan，很多人都在期待 7 纳米的英伟达 GPU 在游戏上的表现。
黄仁勋这次只是表示：「全新架构安培我们现在已经用在 DGX 上了，英伟达正在努力把新架构的芯片用在机器人、自动驾驶汽车等领域中。
未来也会用在图形打算上。
」
光芒追踪技能非常诱人：这样的小游戏画面，是由一块 Quadro RTX 8000 实时渲染出来的。
黄仁勋的表达非常谨慎，不过至少英伟达在这次 GTC 上向我们展示了下一代光芒追踪技能在《我的天下》等游戏中的效果，并将其标记为 RTX 30/20 系列专有：
我的天下中绝大多数建筑都是由玩家自行建造的，这里可没有什么可以「造假」的余地，统统都须要依赖 GPU 和新技能进行实时渲染。
看来间隔 7 纳米制程的 Geforce 3080Ti 出世也已不远了，等等党永久不输。

标签：伟达安培