英伟达AI芯片A100 、A800、 H100 、H800 、B200_英伟_架构

文章目录 [+]

今年3月份，英伟达发布了Blackwell B200，号称环球最强的 AI 芯片。
它与之前的A100、A800、H100、H800有若何的不同?

英伟达GPU架构演进史

英伟达AI芯片A100 、A800、 H100 、H800 、B200_英伟_架构英伟达AI芯片A100 、A800、 H100 、H800 、B200_英伟_架构通讯

我们先回顾一下，历代英伟达AI加速卡的算力发展史：

（图片来自网络侵删）

第一代：Volta

第一代AI加速卡叫Volta，是英伟达第一次为AI运算专门设计的张量运算（Tensor Core）架构。

第二代：Turing

第二代张量打算架构叫图灵（Turing），代表显卡为T4。

第三代：Ampere

第三代张量运算架构安培（Ampere），我们比较熟习的A100系列显卡就属于这一代。

在芯片工艺升级的加持下，单卡SM翻倍到了108个。
虽然SM内的核心数和V100相同，但通过打算单元电路升级，核心每一个周期可以完成256个浮点数乘累加，是老架构的两倍。
加入了更符合当时深度学习须要的8位浮点（FP8）运算模式，一个16位浮点核心可以当作2个8位浮点核心打算，算力再翻倍。
主频稍有低落，为1.41GHz。
因此，A100显卡的算力达到了V100的近5倍，为10882561.41GHz2 =624 TFLOPS (FP8)。

第四代：Hopper

第四代架构Hopper，也便是英伟达去年刚发布的H100系列显卡。
OpenAI大措辞模型演习已经采取了该系列显卡，且因算力问题被禁运。

该显卡的SM数（132个）相较前代并未大幅提升，但由于全新的Tensor Core架构和异步内存设计，单个SM核心一个周期可以完成的FP16乘累加数再翻一倍，达到512次。
主频轻微提高到1.83GHz，终极单卡算力达成惊人的1978 Tera FLOPS（FP8)，也即首次来到了PFLOPS（1.97 Peta FLOPS）领域。

第五代：Blackwell

第五代架构Blackwell，在这个算力天梯上又取得了什么样的进展呢？根据公开的数据，如果采取全新的FP4数据单元，B200在推理任务中将能达到20 Peta FLOPS的算力。
这一代芯片的设计不仅在算力上大幅提升，还在能效比和内存带宽等方面进行了优化。

英伟达的每一代架构都在不断提升AI打算的性能和效率，以适应不断增长的深度学习和AI运用需求。
海内企业也在探索“英伟达+自研+国产芯片”三管齐下的策略，以应对环球半导体市场的变革。

1.英伟达GPU架构演进史

第一代AI加速卡叫Volta ，是英伟达第一次为AI运算专门设计的张量运算（Tensor Core）架构。

第二代张量打算架构叫图灵（Turing），代表显卡T4。

第三代张量运算架构安培（Ampere），终于来到我们比较熟习的A100系列显卡了。

在芯片工艺升级的加持下，单卡SM翻倍到了108个，SM内的核心数和V100相同，但是通过打算单元电路升级，核心每一个周期可以完成256个浮点数乘累加，是老架构的两倍。
加入了更符合当时深度学习须要的8位浮点（FP8）运算模式，一个16位浮点核心可以当作2个8位浮点核心打算，算力再翻倍。
主频稍有低落，为1.41GHz。
因此末了，A100显卡的算力达到了V100的近5倍，为10882561.41GHz2 =624 TFLOPS (FP8)。

Ampere 架构

第四代架构Hopper，也便是英伟达去年刚发布、OpenAI大措辞模型演习已经采取、且因算力问题被禁运的H100系列显卡。

该显卡的SM数（132个）相较前代并未大幅提升，但是由于全新的Tensor Core架构和异步内存设计，单个SM核心一个周期可以完成的FP16乘累加数再翻一倍，达到512次。
主频轻微提高到1.83GHz，终极单卡算力达成惊人的1978 Tera FLOPS（FP8)，也即首次来到了PFLOPS（1.97 Peta FLOPS）领域。

Hopper 架构

第五代架构Blackwell，在这个算力天梯上又取得了什么样的进展呢？根据公开的数据，如果采取全新的FP4数据单元，GB200在将能在推理任务中达到20 Peta FLOPS算力。
将其还原回FP8，该当也有惊人的10 PFLOPS，这相对H100提升将达到5倍旁边。

公开数据显示，Blackwell的处理器主频为2.1GHz。
假设架构没有大幅更新，这意味着Blackwell将有600个SM，是H100的靠近4倍。
Blackwell有两个Die，那么单Die显卡的SM数也达到了H100的2倍。

可以说，每一代架构的升级，单个GPU算力实现数倍增长。
这里，我们将从Volta架构至今的算力天梯进展图列表如下，方便大家查阅：

2. A100 VS A800，H100 VS H800

为什么有A100还要A800呢？先说说背景

2022年10月，美国出台了对华半导体出口限定新规，个中就包括了对付高性能打算芯片对中国大陆的出口限定。
并且以NVIDIA的A100芯片的性能指标作为限定标准；即同时知足以下两个条件的即为受牵制的高性能打算芯片：

（1）芯片的I/O带宽传输速率大于或即是600 Gbyte/s；

（2）“数字处理单元原始打算单元”每次操作的比特长度乘以TOPS 打算出的的算力之和大于或即是4800TOPS。

这也使得NVIDIA A100/H100系列、AMD MI200/300系列AI芯片无法对华出口。

为了在遵守美国限定规则的条件下，同时知足中国客户的需求，英伟达推出A100的替代产品A800。
从官方公布的参数来看，A800紧张是将NVLink的传输速率由A100的600GB/s降至了400GB/s，其他参数与A100基本同等。

2023年，英伟达发布了新一代基于4nm工艺，拥有800亿个晶体管、18432个核心的H100 GPU。
同样，NVIDIA也推出了针对中国市场的特供版H800。

实际上，A800在互联带宽，即 N 维链和链路部分做了调度，从 A100的600G/s 降到了400G/s。
但是在其他方面，如双精、单精、半精等在 AI 算力方面并没有变革。

相对而言，H800则做了较大的调度。
它不仅在链路方面进行了调度，保持了 8条的 NVlink，双向互联带宽仍为400G，并且对双精度算力进行了险些归零的处理。
这对 HPC 领域来说非常关键，由于 FP64的双精度算力直接减少到了一，也便是说险些不让你利用了。

接下来，我们来看一下阉割后对哪些业务有很大的影响。

大模型沙场: A800阉割后降落了大模型的演习的效率, A800 SXMM 紧张是 GPU 卡之间的数据传输效率降落,带宽降落 33%。
以 GPT-3 为例, 规模达到 1750 亿, 须要多张 GPU 组合演习, 如果带宽不敷则使性能低落约 4 成 (涌现 GPU 算力高须要等待数据的情形), 考虑到 A 800 和 H 800 性价比, 海内用户还是方向于 A 800。
由于阉割后的 A800和 H800在演习效率上有所低落，由于他们须要在卡之间交互演习过程中的一些数据，以是他们的传输速率的降落导致了他们的效率的降落。

HPC 领域: A800 和 A100 在双精方面算力同等, 以是在高性能科学打算领域没有影响, 但是可恶的是 H800 直接将双精算力直接降到了 1 TFLOPS, 直接不让用了；这对超算领域的影响还是很大的。

以是影响是显而易见的，在 AIGC 、HPC 领域中，海内的一些企业可能会被国外的企业拉开一定的差距。
这是可预见到的，以是说在一些情形下，如果我们要打算能力要达到一定的性能，它的投入可能会更高。
此外，我们只能从国外借壳，通过成立分公司的办法，把大模型演习的任务放在国外，我们只是把演习好的成果放在海内去用就可以了。
但是，这只是一种临时性的方案，特殊是面临数据出境风险。

3.后话

众所周知，目前美国对中国的芯片限定越来越严格，在GPU上面也是如此。

2022年美国禁掉了高性能GPU芯片，包括A100、H100等，而2023年又禁掉了A800、H800、L40、L40S，乃至连桌面端显卡RTX 4090都禁了。

因此，海内科技企业也积极调度家当策略，为未来减少利用英伟达芯片做准备，从而避免不断调度技能以适应新芯片的巨大代价。
阿里和腾讯等云厂商将一些前辈的半导体订单转移给华为等本土公司，并更多地依赖其内部开拓的芯片，百度和字节跳动等企业也采纳了类似方法。
显然，海内企业选择“英伟达+自研+国产芯片”三管齐下进行探路。