首页 » 互联网 » 碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1机能跃升17%_英伟_机能

碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1机能跃升17%_英伟_机能

雨夜梧桐 2024-12-27 13:18:38 0

扫一扫用手机浏览

文章目录 [+]

继4月份加入LLM演习测试后,MLPerf再次迎来重磅更新!

刚刚,MLCommons发布了MLPerf v3.1版本更新,并加入了两个全新基准:LLM推理测试MLPerf Inference v3.1,以及存储性能测试MLPerf Storage v0.5。

碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1机能跃升17%_英伟_机能 碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1机能跃升17%_英伟_机能 互联网

而这,这也是英伟达GH200测试成绩的首次亮相!

碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1机能跃升17%_英伟_机能 碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1机能跃升17%_英伟_机能 互联网
(图片来自网络侵删)

比较于单张H100合营英特尔CPU,GH200的Grace CPU+H100 GPU的组合,在各个项目上都有15%旁边的提升。

英伟达GH200超级芯片首秀

毫无疑问,英伟达的GPU在MLPerf Inference 3.1基准测试中表现是最亮眼的。

个中,最新发布的GH200 Grace Hopper超级芯片,也是首次在MLPerf Inference 3.1上亮相。

Grace Hopper超级芯片将英伟达的Grace CPU与H100 GPU集成在一起,通过超高的带宽连接,从而比单个H100合营其他的CPU能供应更强的性能表现。

「Grace Hopper首次展示了非常强劲的性能,与我们的H100 GPU提交比较,性能提高了17%,我们已经全面领先,」英伟达人工智能总监Dave Salvator在新闻发布会上表示。

性能大幅增长

详细来说,它将一个H100 GPU和Grace CPU集成在一起,通过900GB/s的NVLink-C2C连接。

而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存,集成了高达576GB以上的高速访问内存。

英伟达GH200 Grace Hopper超级芯片专为打算密集型事情负载而设计,能够知足各种严苛的哀求和各项功能。

比如演习和运行数万亿参数的大型Transformer模型,或者是运行具有数TB大小的嵌入表的推举系统和向量数据库。

GH200 Grace Hopper超级芯片还在MLPerf Inference测试中有着非常精良的表现,刷新了英伟达单个H100 SXM在每个项目中创下的最佳成绩。

NVIDIA Grace Hopper MLPerf Inference数据中央性能与DGX H100 SXM的比拟结果,每个数值都是GH200的性能领先幅度

GH200 Grace Hopper超级芯片集成了96 GB的HBM3,并供应高达4 TB/s的HBM3内存带宽,而H100 SXM分别为80 GB和3.35 TB/s。

与H100 SXM比较,更大的内存容量和更大的内存带宽使得在NVIDIA GH200 Grace Hopper超级芯片上利用更大的批处理大小来处理事情负载。

例如,在做事器场景中,RetinaNet和DLRMv2的批处理大小都增加了一倍,在离线场景中,批处理大小增加了50%。

GH200 Grace Hopper超级芯片在Hopper GPU和Grace CPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信,从而有助于提高性能。

例如,在MLPerf DLRMv2中,在H100 SXM上通过PCIe传输一批张量(Tensor)大约须要22%的批处理推理韶光。

利用了NVLink-C2C的GH200 Grace Hopper超级芯片仅利用3%的推理韶光就完成了相同的传输。

由于具有更高的内存带宽和更大的内存容量,与MLPerf Inference v3.1的H100 GPU比较,Grace Hopper超级芯片的单芯片性能上风高达17%。

推理和演习全面领先

在MLPerf的首秀中,GH200 Grace Hopper Superchip在封闭种别(Closed Division)的所有事情负载和场景上都表现出卓越的性能。

而在主流的做事器运用中,L4 GPU能够供应一个低功耗,紧凑型的算力办理方案,与CPU办理方案比较的性能也有了大幅的提升。

Salvator表示,「与测试中最好的x86 CPU比较,L4的性能也非常强劲,提高了6倍」。

对付其他的AI运用和机器人运用,Jetson AGX Orin和Jetson Orin NX模块实现了出色的性能。

未来的软件优化有助于进一步开释强大的英伟达Orin SoC在这些模块中的潜力。

在目前非常盛行的目标检测AI网络——RetinaNet上,英伟达的产品的性能提高了高达84%。

英伟达开放部分(Open Division)的结果,展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。

全新MLPerf 3.1基准测试

当然,这并不是MLCommons第一次考试测验对大措辞模型的性能进行基准测试。

早在今年6月,MLPerf v3.0就首次加入了LLM演习的基准测试。
不过,LLM的演习和推理任务,差异很大。

推理事情负载对打算哀求高,而且种类繁多,这就哀求平台能够快速处理各种类型的数据预测,并能在各种AI模型上进行推理。

对付希望支配AI系统的企业来说,须要一种方法来客不雅观评估根本举动步伐在各种事情负载、环境和支配场景中的性能。

以是对付演习和推理的基准测试都是很主要的。

MLPerf Inference v3.1包括了两项主要更新,来更好地反响现在AI实际的利用情形:

首先,增加了基于GPT-J的大型措辞模型 (LLM)推理的测试。
GPT-J是一个开源的6B参数LLM,对CNN/逐日邮报数据集进行文本总结。

除了GPT-J之外,这次还更新了DLRM测试。

针对MLPerf Training v3.0中引入的DLRM,采取了新的模型架构和更大的数据集,更好地反响了推举系统的规模和繁芜性。

MLCommons创始人兼实行董事David Kanter表示,演习基准侧重于更大规模的根本模型,而推理基准实行的实际任务,则代表了更广泛的用例,大部分组织都可以进行支配。

在这方面,为了能够对各种推理平台和用例进行有代表性的测试,MLPerf定义了四种不同的场景。

每个基准都由数据集和质量目标定义。

每个基准都须要以了局景:

在MLPerf v3.1基准测试中,有超过13,500个结果,个中不少提交者的性能比3.0基准提高了20%,乃至更多。

其他提交者包括华硕,Azure,cTuning,Connect Tech,戴尔,富士通,Giga Computing,谷歌,H3C,HPE,IEI,英特尔,Intel Habana Labs,Krai,遐想,墨芯,Neural Magic,Nutanix,甲骨文,高通,Quanta Cloud Technology,SiMA,Supermicro,TTA和xFusion等。

详细数据:https://mlcommons.org/en/inference-datacenter-31/

参考资料:

https://developer.nvidia.com/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/?ncid=so-twit-408646&=&linkId=100000217826658

https://mlcommons.org/en/inference-datacenter-31/

https://venturebeat.com/ai/mlperf-3-1-adds-large-language-model-benchmarks-for-inference/

标签:

相关文章

手机,现代信息技术发展的缩影

随着科技的飞速发展,信息技术(IT)已经渗透到了我们生活的方方面面。而手机,作为现代信息技术发展的缩影,见证了我国从“信息匮乏”到...

互联网 2024-12-29 阅读0 评论0

拥抱数字化浪潮,投资IT行业的未来展望

随着全球信息化、数字化进程的加速,信息技术(IT)行业已成为推动经济发展的核心动力。在新时代背景下,投资IT行业无疑成为企业及投资...

互联网 2024-12-29 阅读0 评论0

探寻IT咖啡长沙,打造智慧城市新引擎

随着互联网技术的飞速发展,我国已步入信息时代,智慧城市建设成为国家战略。在众多智慧城市建设中,长沙以其独特的地域优势和产业基础,脱...

互联网 2024-12-29 阅读0 评论0