英伟达GH200首次亮相AI机能基准评测比H100机能提升17%_英伟_机能

文章目录 [+]

当地韶光9月11日，推出不到两个月的英伟达GH200 Grace Hopper超级芯片首次亮相MLPerf行业基准测试。
在这次测试中，具有更高的内存带宽和更大的内存容量的GH200与H100 GPU比较，性能赶过17%。

Grace Hopper与DGX H100 SXM在MLPerf推理数据中央性能结果的比较。
来源：英伟达

英伟达GH200首次亮相AI机能基准评测比H100机能提升17%_英伟_机能英伟达GH200首次亮相AI机能基准评测比H100机能提升17%_英伟_机能智能

在新闻发布会上，英伟达人工智能总监戴夫·萨尔瓦托（Dave Salvator）表示：“Grace Hopper表现出色，首次提交的性能比H100 GPU性能赶过多达17％，而我们的H100 GPU产品已经在各个领域取得了领先地位。
”

（图片来自网络侵删）

MLPerf是影响力广泛的国际AI性能基准评测，其推理性能评测涵盖利用广泛的六大AI场景，比如打算机视觉、自然措辞处理、推举系统、语音识别等，每个场景采取最主流的AI模型作为测试任务，每一任务又分为数据中央和边缘两类场景。
其由MLCommons（由来自学术界、研究实验室和行业的人工智能领导者组成的同盟）开拓，旨在对硬件、软件和做事的演习和推理性能“构建公正和有用的基准测试”。

这次MLPerf Inference v3.1基准测试是继4月发布3.0版本之后的又一次更新，值得把稳的是，这次更新包含了两个第一次：引入基于60亿参数大措辞模型GPT-J的推理基准测试（AI模型的大小常日根据它有多少参数来衡量）和改进的推举模型。

GPT-J是来自EleutherAI的OpenAI GPT-3的开源替代品，现已在MLPerf套件中用作衡量推理性能的基准。
与一些更前辈的人工智能模型（如1750亿参数的GPT-3）比较，60亿参数的GPT-J属于相称轻量的模型，但它非常适宜推理基准的角色。
该模型总结了文本块，并可在延迟敏感的在线模式和吞吐量密集型的离线模式下运行。

GH200 Grace Hopper超级芯片在GPT-J事情负载方面取得了精良的成绩，在离线和做事器场景中的每加速器性能都达到了最高水平。
据英伟达先容，GH200 Grace Hopper超级芯片是专为打算和内存密集型事情负载而设计，它在最苛刻的前沿事情负载上供应了更高的性能，如基于Transformer的大型措辞模型（具有数千亿或数万亿参数）、具有数万亿字节嵌入表的推举系统和矢量数据库。

GH200 Grace Hopper 超级芯片的逻辑概述。
来源：英伟达

GH200超级芯片最新版由英伟达CEO黄仁勋在8月的天下顶级打算机图形学会议SIGGRAPH上公布。
之以是称其为超级芯片，由于它在同一块板年夜将英伟达Grace中心处理单元（CPU）和Hopper图形处理单元（GPU）连接在一起。
借助新型双GH200做事器中的NVLink，系统中的CPU和GPU将通过完备同等的内存互连进行连接。
这种组合供应了更大内存、更快带宽，能够在CPU和GPU之间自动切换打算所须要的资源，实现性能最优化。

萨尔瓦托说：“如果GPU非常劳碌，而CPU相对空闲，我们可以将功率预算转移到GPU上，以许可它供应额外的性能。
通过拥有这个功率余地，我们可以在全体事情负载中保持更好的频率驻留，从而供应更多的性能。
”

TensorRT-LLM能够在不增加本钱的情形下将现有H100 GPU的推理性能提升两倍以上。
来源：英伟达

此外，为提高大型措辞模型（LLM）的推理性能，英伟达推出一款能够优化推理的天生式AI软件——TensorRT-LLM，其能够在不增加本钱的情形下将现有H100 GPU的推理性能提升两倍以上。
主要的是，该软件可以实现这种性能改进，而无需重新演习模型。

英伟达称，由于韶光缘故原由，TensorRT-LLM没有参加8月的MLPerf提交。
据英伟达的内部测试，在运行60亿参数GPT-J模型时，相较于没有利用TensorRT-LLM的上一代GPU，在H100 GPU上利用TensorRT-LLM能够实现8倍的性能提升。