H200 GPU 或许是这场秀的真正主角。Nvidia 没有供应所有规格的详细明细,但紧张的一点彷佛是每个 GPU 的内存容量和带宽大幅增加。
更新后的 H200 配备了总容量为 141GB 的 HBM3e 内存,有效运行速率约为 6.25 Gbps,六个 HBM3e 堆栈中每个 GPU 的总带宽为 4.8 TB/s。这比原来的 H100 有了巨大的改进,原来的 H100 有 80GB 的 HBM3 和 3.35 TB/s 的带宽。H100 的某些配置确实供应了更多的内存,比如 H100 NVL,它将两块板子配对利用,统共供应了 188GB 内存(每个 GPU 94GB),但与 H100 SXM 变体比较,新的 H200 SXM 内存容量增加了 76%,带宽增加了 43%。
须要把稳的是,原始打算性能彷佛没有太大变革。Nvidia 展示的唯一打算图形利用了 8 个 GPU HGX 200 配置,总性能为 "32 PFLOPS FP8"。最初的 H100 供应了 3958 teraflops 的 FP8 性能,因此 8 个这样的 GPU 也已经能供应大约 32 petaflops 的 FP8 性能。

H200 与 H100 比较会快多少?这将取决于事情负载。对付像 GPT-3 这样因内存容量增加而受益匪浅的 LLM,Nvidia 声称其性能比原来的 A100 赶过18 倍,而 H100 只比A100快了约 11 倍。此外,还有关于即将推出的 Blackwell B100 的预报,不过现在只是一个更高的条形图,并逐渐变黑。
当然,这次英伟达不仅仅是宣告发布了更新的 H200 GPU。还有一种新的 GH200 也即将面世,它将 H200 GPU 与 Grace CPU 结合在一起的"超级芯片 "。每个 GH200将包含 624GB 内存。最初的 GH100 将 CPU 的 480GB LPDDR5x 内存与 96GB HBM3 内存结合在一起,而新版本则增加到了144GB HBM3e。
同样,关于 CPU 方面是否有其他变革的细节也不多,但 Nvidia 供应了 GH200 与 "当代双插槽 x86 "配置的一些比较,个中提到了与 "非加速系统 "比较的速率提升。
这意味着什么?我们只能假设 x86 做事器运行的代码没有经由完备优化,特殊是考虑到人工智能天下发展迅速,优化方面彷佛常常有新进展。
GH200 还将用于新的 HGX H200 系统。听说,这些系统与现有的 HGX H100 系统 "无缝兼容",这意味着 HGX H200 可以在相同的设备中利用,以提高性能和内存容量,而无需重新设计根本举动步伐。
瑞士国家超级打算中央(Swiss National Supercomputing Center)的阿尔卑斯超级打算机(Alps supercomputer)很可能是明年投入利用的首批Grace Hopper超级打算机之一,不过该系统仍旧利用 GH100。美国第一台投入利用的 GH200 系统将是洛斯阿拉莫斯国家实验室的 Venado 超级打算机。本日宣告的德克萨斯高等打算中央(TACC)Vista 系统也将利用格雷斯 CPU 和格雷斯 Hopper 超级芯片,但尚不清楚是 H100 还是 H200。
据目前所知,即将安装的最大的超级打算机是 "胡安里奇 "超级打算中央( Jϋlich Supercomputing Centre)的Jupiter超级打算机。它将容纳 "近 "24,000个GH200超级芯片,合计93 exaflops的人工智能打算能力(推测这是利用FP8的数字,只管根据我们的履历,大多数人工智能仍旧利用BF16或FP16)。它还将供应 1 exaflop 的传统 FP64 打算能力。它利用的 "quad GH200 "板具有四个 GH200 超级芯片。
总而言之,Nvidia 估量在未来一年旁边的韶光里,这些新安装的超级打算机将供应超过 200 exaflops 的人工智能打算性能。