虽然英伟达(NVIDIA)并购Arm的操持失落败,但凭借其图形处理和人工智能(AI)
两大赛道,英伟达已经成为环球半导体市值的TOP ONE。截至目前,英伟达的市值将近7000亿美元,比第二名台积电足足多了1400亿美元。
2022年3月22日,在英伟达年度G
TC大会(英伟达组织召开的环球开拓者大会)上,英伟达CEO黄仁勋拿出王炸,堪称AI核弹级别的产品:最新Hopper架构的H100 GPU系列!
小麦整理了本场GTC大会的完全干货,分享给各位读者朋友。
每次英伟达GPU的新架构都会以一位科学家的名字来命名,这次也不例外。新Hopper架构的命名取自美国打算机科学家格蕾丝・赫柏(Grace Hopper),她是耶鲁大学第一位数学女博士、天下上第三位程序员,也是环球首个编译器的发明者。
作为环球首款基于Hopper架构的GPU,比较A100,H100的FP8(8bit浮点运算精度)性能提升6倍,FP16、TF32、FP64性能各提升3倍。
从技能进展来看,H100有6项打破性创新:
1、前辈芯片:H100采取台积电4纳米工艺,有800亿个晶体管,可实现近5TB/s的外部互联带宽。H100是首款支持PCIe 5.0的GPU,也是首款采取HBM3标准的GPU,单个H100可支持40Tb/s的I/O带宽,实现3TB/s的显存带宽。用黄仁勋的话说,20块H100 GPU便可承载相称于环球互联网的流量。
2、新Transformer引擎:该引擎可以在不影响准确性的情形下,可将Transformer模型的演习韶光从数周缩短至几天。
3、第二代安全多实例GPU:MIG技能支持将单个GPU分为7个更小且完备独立的实例,以处理不同类型的作业。H100能托管7个云租户,而A100仅能托管1个。
4、机密打算:H100是环球首款具有机密打算功能的GPU加速器,能保护AI模型和正在处理的客户数据,可以运用在医疗康健和金融做事等隐私敏感型行业。
5、第4代英伟达NVLink:结合全新外接NVLink Switch,可将NVLink扩展为做事器间的互联网络,最多连接多达256个H100 GPU。
6、DPX指令:Hopper引入了一组名为DPX的新指令集,DPX可加速动态编程算法,办理路径优化、基因组学等算法优化问题,与CPU和上一代GPU比较,其速率提升分别可达40倍和7倍。
总体来说,H100的这些技能优化,将对跑深度推举系统、大型AI措辞模型、基因组学、繁芜数字孪生、景象科学等任务的效率提升非常明显。
H100将供应SXM和PCIe两种规格,可知足各种做事器设计需求。个中H100 SXM供应4 GPU和8 GPU配置的HGX H100做事器主板;H100 PCIe则通过NVLink连接两块GPU,PCIe规格更便于集成到现有的数据中央根本举动步伐中。
为了将Hopper的强大算力引入主流做事器,本次英伟达还推出了全新的领悟加速器H100 CNX。它将网络与GPU直接相连,使网络数据通过DMA以50GB/s的速率直接传输到H100,有效避免带宽瓶颈。
这些产品估量于今年下半年时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软Azure、Oracle Cloud、腾讯云和火山引擎等云做事商均操持推出基于H100的实例。
企业级AI系统,最快AI超算基于H100,英伟达最前辈的企业级AI根本举动步伐DGX H100系统、DGX SuperPOD以及Eos超级打算机也将逐一登场,它们操持从今年第三季度逐步开始供应。
DGX H100
DGX H100是一款基于英伟达H100 GPU的AI平台。每个DGX H100系统配备8块H100 GPU,总计有6400亿个晶体管,由NVLink连接,在全新的FP8精度下AI性能可达32Petaflops(千万亿次/秒),比上一代系统性能高6倍,GPU之间可供应900GB/s的带宽,是上一代系统的1.5倍。
DGX SuperPOD
借助NVLink Switch系统,DGX SuperPOD,可以最多由32个DGX H100组成(最多高达256个GPU),其HBM3显存达20.5TB,显存带宽高达768TB/s。“比较之下,全体互联网不过只有100TB/s。”英伟达CEO黄仁勋感慨道。
新一代DGX SuperPOD可供应1Exaflops(百亿亿次/秒)的FP8 AI性能,比上一代产品性能高6倍,能够运行具有数万亿参数的大型措辞模型;还有20TB的HBM3显存、192TFLOPS(万亿次/秒)的SHARP网络打算性能。
Eos超级打算机
其余,据黄仁勋透露,英伟达正在打造Eos超级打算机,并称这是“首个Hopper AI工厂”,将于数月后推出。
该超算将包含18个DGX SuperPOD,也便是576台DGX H100系统,共计4608块DGX H100 GPU,估量将供应18.4Exaflops的AI算力,这比目前运行速率最快的日本富岳(Fugaku)超级打算机快4倍。在传统科学打算方面,Eos估量可供应275Petaflops的性能。
两个CPU组成的Grace CPU
除了GPU外,英伟达数据中央“三芯”计策中另一大支柱CPU也有新进展。本次,英伟达推出首款面向HPC和AI根本举动步伐,基于最新的Armv9架构的数据中央专属CPU:Grace CPU超级芯片。
Grace CPU单个socket拥有144个CPU核心,具备最高的单线程核心性能。通过Grace Hopper超级芯片模组能在CPU与GPU之间进行芯片间的直接连接,每个链路的速率达到900GB/s。
Grace CPU超级芯片可运行所有的英伟达打算软件栈,结合英伟达ConnectX-7网卡,能够灵巧地配置到做事器中,或作为独立的纯CPU系统,或作为GPU加速做事器,可以搭配基于Hopper的GPU。
AI软件系统如今英伟达已经能供应全栈AI,除了AI打算硬件外,其AI软件也有不少进展。本次英伟达发布了60多个干系库、工具和技能的更新,用于量子打算和6G研究、网络安全、基因组学、药物研发等领域的打算研究。
英伟达利用其首台AI数字孪生超级打算机Earth-2来应对景象变革,并创建了Physics-ML模型来仿照环球景象模式的动态变革。英伟达还与实验室研究员们共同开拓了一个景象预报AI模型FourCastNet,该模型基于10TB的地球系统数据进行演习,首次在降水预测上达到比前辈的数值模型更高的准确率,并使预测速率提高了4~5个数量级。
同时,英伟达对话式AI做事Riva全面发行,Riva 2.0版本支持识别7种措辞,可将神经文本转换为不同性别发声的语音。
Maxine,一个AI模型工具包,现已拥有30个前辈模型,可优化实时视频通信的视听效果。比如开远程视频会议时,Maxine可实现说话者与所有参会者保持眼神互换,并能将说的措辞实时切换成另一种措辞,而且音色听起来不变。
在医疗康健领域,黄仁勋则谈道,过去几年,AI药研初创公司得到了超400亿美元的投资,数字生物学革命的条件已经成熟,他称这将是“NVIDIA AI迄今为止最伟大的义务”。
6G标准将于2026年旁边问世,一些干系根本技能逐渐成形。对此,英伟达推出了一款用于6G通信研究的AI框架Sionna。
Omniverse作为虚拟天下的仿真引擎,Omniverse平台能遵照物理学定律,构建一个趋真的数字天下,专业术语是数字孪生,大略理解便是将真实天下数字化,创建一个真实天下的“数字孪生兄弟”,用现在一个盛行的词汇来说,那便是“元宇宙”。
为此,英伟达打造了OVX做事器和OVX SuperPOD超级集群。OVX是首款Omniverse打算系统,由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps网卡(NIC)和2个英特尔至强Ice Lake CPU组成。
而32台OVX做事器可构成OVX SuperPOD超级集群,实现这集群的关键举动步伐是英伟达新推出的Spectrum-4以太网平台。
这是环球首个400Gbps端到端网络平台,由英伟达Spectrum-4交流机系列、ConnectX-7智能网卡、BlueField-3 DPU和DOCA数据中央根本举动步伐软件组成,其交流吞吐量比前几代产品赶过4倍。Spectrum-4实现了纳秒级精度,比较范例数据中央毫秒级抖动提升了5~6个数量级。
有趣的是,为了展示Omniverse,黄仁勋的虚拟化身“玩偶老黄”Toy Jensen 再度现身,向大家展示了虚拟天下,以及真人与虚拟人物的实时的互换和对话。
像Toy Jensen 这样的虚拟形象,从声音到细微的头部及身体运动,乃至高保真度的形象塑造,都仿照的惟妙惟肖,更加的灵动。同时得益于 Riva 中的最新对话式 AI 技能和措辞模型,“玩偶老黄”可以听懂你问的问题,也能跟你实时谈天互动。
AI汽车
下一代DRIVE Hyperion 9将有望从2026年起搭载到汽车中,它将拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器,总体传感器数量将是Hyperion 8的两倍。
此外,英伟达推出了一种多模态舆图引擎NVIDIA DRIVEMap,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
DRIVEMap将有两个舆图引擎,真值测绘舆图引擎和众包车队舆图引擎。黄仁勋谈道,到2024年,他们估量绘制并创建北美、西欧和亚洲所有紧张公路的数字孪生(数字仿照真实),总长度约为50万公里。
互助方面,环球第二大电动汽车制造商比亚迪将在2023年上半年开始投产的汽车中搭载DRIVE Orin打算平台。自动驾驶独角兽企业元戎启行、中国自动驾驶创企云骥智行也宣告将在其L4级自动驾驶车规级量产方案中搭载NVIDIA DRIVE Orin SoC芯片。
而美国电动汽车公司Lucid Motors、中国L4级自动驾驶科技公司文远知行、中国新型电动车公司悠跑科技均宣告将运用英伟达DRIVE Hyperion自动驾驶汽车平台。
机器人平台英伟达正在构建多个机器人平台,包括用于自动驾驶汽车的DRIVE、用于操纵和掌握系统的Isaac、用于医疗设备的Holoscan等。
Clara Holoscan MGX是一个开放可扩展的机器人平台,其设计符合IEC-62304医疗级规格,核心打算机为Jetson AGX Orin和ConnectX-7智能网卡,并可选配NVIDIA RTX A6000 GPU。该平台AI算力可达每秒254~610万亿次运算,目前向早期体验客户开放,并将于2023年第一季度完成医疗级准备。
本次大会,英伟达还推出了Isaac for AMR(AMR自主移动机器人),Isaac将有2个摄像头、2个激光雷达、8个超声波雷达和4个鱼眼摄像头,它将配备英伟达新的DeepMap雷达制图系统,可以扫描和重修环境,机器人以此进行路线方案和数字孪生仿真。
结语:AI前沿技能盛宴
这些年来,英伟达在AI热潮中受益匪浅,其GPU被证明是盛行的、数据密集型深度学习方法的完美匹配。随着AI领域对数据打算需求的增长,英伟达希望供应可以更多的火力。
一年一度的英伟达GTC大会则成为一场面向AI、HPC、科学打算、数字孪生及自动驾驶等诸多前沿领域的技能盛宴。在这场盛宴中,我们看到了这些技能的打破是如何改变各行各业的事情办法。
随着新一代大规模云技能的涌现,数据中央架构有待转型。在稳拥GPU的根本之上,英伟达的角色正从图形显示和加速打算“偏科学霸”,转向环绕数据中央三大芯片支柱全面发展。英伟达CEO黄仁勋认为,数据中央正在逐渐转变成“AI工厂”。它通过处理海量的数据来实现智能,而今日推出的H100便是实现企业AI业务加速的引擎。H100的多项技能创新,数据中央专属GraceCPU超级芯片的分外设计,以及AI软件和Omniverse平台的持续升级,进一步扩大了英伟达在AI领域的领导地位。
英伟达的创造力是值得让人惊叹的!
或许在不久的将来,英伟达将引领未来的AI智能,勾引大热的虚拟天下“元宇宙”,让我们的能够设身处地的感想熏染到虚拟现实带来的惊叹。到底能走到哪一步,小麦很是期待,你们呢?
好了,本期文章就先容到这里。如果想理解更多最新好玩的科技资讯,那就赶紧关注我们微信"大众年夜众号“闲麦回收”吧。
我们是一家专注于数码3C回收的公司,力求为用户带来更好的回收体验以及丰富您的科讯知识。我们会定期发布更多有趣好玩的文章,请您持续关注我们!