首页 » 智能 » 中国工程院院士郑纬平易近:做好十个软件改进基于国产AI芯片的系统生态_模子_英伟

中国工程院院士郑纬平易近:做好十个软件改进基于国产AI芯片的系统生态_模子_英伟

少女玫瑰心 2024-11-13 03:17:52 0

扫一扫用手机浏览

文章目录 [+]

4月28日,中国移动2024算力网络大会在苏州开幕。
《逐日经济新闻》在现场把稳到,会上,中国工程院院士郑纬民提到,目前有三类系统可支持大模型演习。

个中,基于英伟达GPU的系统一卡难求;基于国产AI芯片的系统仍面临国产卡运用不敷、生态系统有待改进的问题,可通过十个软件来进行改进;基于超级打算机的系统,可在做好软硬件协同设计的情形下实现大模型演习,但需在超算机器尚未饱和的条件下操作。
整体来看,只管打造国产A1卡的万卡大模型演习平台难度不小,但十分必要。

中国工程院院士郑纬平易近:做好十个软件改进基于国产AI芯片的系统生态_模子_英伟 智能

图片来源:每经 杨卉 摄

国产卡运用不敷,生态系统有待改进

郑纬民提出,近两年来人工智能的发展导致算力需求呈爆发性增长,个中模型研发须要配套算力;模型演习须要海量算力,如演习GPT-4须要一万块英伟达A100芯片跑上11个月;模型精调须要可控算力;模型推理须要可靠算力,算力存在于大模型生命周期的每一环。

然而,海量算力背后有一个很现实的问题:贵。
根据郑纬民打算,在大模型演习的过程中,70%的开销要花在算力上;推理过程中95%的花费也是在算力上,人工智能家当算力本钱居高不下。

郑纬民进一步指出,要构建基于国产AI卡的万卡大模型演习平台,须要考虑到几个问题。
首先是半精度运算性能与双精度运算性能的平衡问题。
郑纬民强调,在设计过程中,不仅要考虑半精度运算性能,还要考虑双精度运算能力,双精度与半精度运算性能之比为1∶50—1∶100为宜。
“不论是自己做还是买,第一件事情便是问比例是多少。

第二点是网络平衡设计。

郑纬民阐明称,万卡系统中的万块卡不能分散在各地,将其连接起来便是所谓的网络。
但连接也很有“讲究”,每块卡之间能实现直连是最好的状态。
但如此一来,每块AI卡都需插上9999块连接卡,一万块AI芯片均要实现直连,所需的连接卡数量太过弘大,本钱乃至还要高过万块卡本身。
此外,即便资金充足,卡槽数量也无法知足需求。
因此,网络设计不能只针对CNN算法,还需考虑极大规模预演习模型对系统的需求。
大规模预演习模型须要高带宽低延迟网络,支持数据并行,模型并行和专家平行模式。

第三点是体系构造感知的内存平衡设计。
郑纬民强调,一方面访问内存的要求使网络拥塞,降落吞吐量,反响到运用程序上表现为访存性能显著低落;另一方面,多个访问内存的要求可能访问同一存控对应的内存空间,负载不均,存控须要顺序处理访存要求。

第四点是IO子系统平衡设计。
郑纬民进一步阐明称,万卡系统中负载的芯片数量太大,即便是英伟达芯片,也基本会在三小时旁边涌现一次缺点。
过去,为担保演习不被中断,大模型演习厂商常日采取间隔一段韶光,如2.5小时对数据进行一次保存或转移,一旦涌现缺点可以不必从0开始,可在保存位置连续实行。

然而,大模型演习数量过大,很难沿用上述操作模式。
因此,万卡系统除了支持检讨点操作,还需增加SSD(固态硬盘)。
其余,系统确当地NVMe SSD仅通过本地文件系统访问,限定了其运用范围,需将每台做事器上的快速本地NVMe整合为运用可见的全局分布式文件系统。

郑纬民剖析指出,目前来看,支持大模型演习有三类系统,分别为基于英伟达GPU的系统、基于国产AI芯片的系统和基于超级打算机的系统。
个中,基于英伟达公司GPU的系统硬件性能和编程生态好,但受到禁售影响,加之价格暴涨,一卡难求。
而基于国产AI芯片的系统,只管近年来海内二十余家芯片公司取得了很大的进步,但仍面临国产卡运用不敷、生态系统有待改进的问题。

十大软件改进基于国产AI芯片的系统生态

郑纬民直言,要改进基于国产AI芯片的系统生态,这一问题实在并不“抽象”,须要做好十个软件。

第一是编程框架应进一步降落编写人工智能模型的繁芜度;利用基本算子快速构建人工智能模型,如PyTorch、TensorFlow。

第二是并行加速,为多机多卡环境供应人工智能模型并行演习的能力;支持数据并行、模型并行、流水线并行、张量并行等,如微软的DeepSpeed、英伟达Megatron-LM。

第三是通信库要供应跨机跨卡的通信能力;可支持人工智能模型演习所需各种通信模式;可根据底层网络特点充分利用网络通信带宽,如英伟达的NCCL库、超算普遍支持的MPI通信库。

第四是算子库,需供应人工智能模型所需基本操作的高性能实现;能够尽可能覆盖范例人工智能模型所需的操作;算子库能充分发挥底层硬件的性能,如英伟达cuDNN,cnBLAS。

第五是AI编译器,要可在异构处理器上对人工智能程序天生高效的目标代码;对算子库不能供应的操作通过AI编译器自动天生高效目标代码,如XLA、TVM。
不过,郑纬民也谈到,目前海内节制AI编译器的人才较少,实现难度较大。

第六是编程措辞,要供应异构处理器上编写并行程序的支持;覆盖底层硬件功能,发挥硬件性能;能够编写人工智能模型的基本算子(Operator),如英伟达的CUDA,Intel的oneAPI。

第七是调度器,需具备在大规模系统上高效调度人工智能任务的能力;同时设计高效调度算法,提高集群资源利用率,如Kubernetes(K8S)、华为ModelArts。

第八是内存分配系统,可针对人工智能运用特点供应高效的内存分配策略。

第九是容错系统,用来供应在硬件发生故障后快速规复模型演习的能力。

第十是存储系统,需支持演习过程中高效的数据读写(检讨点演习数据等)。

郑纬民直言,当前海内已经有了上述软件,但做得不足全,不足好。
当务之急是先将上述软件做好,从而提高用户的利用意愿。
郑纬民强调,国产AI芯片与业界领先水平存在一定差距,但若将生态做好,只要性能可以达到业界领先水平的一半或60%,客户也会乐意利用,大多数任务不会因芯片性能的眇小差异而有明显感知。

至于第三种渠道,基于超级打算机的系统,根据郑纬民透露,当前海内约有14个国家级超算中央,性能很快且机器利用情形尚未达到饱和。
若软硬件协同的设计做好,在超算机器上做大模型演习也是可能实现的。

郑纬民供应的视频演示显示,在某国产超算上进行大模型演习与推理时,利用超算调度系统申请512个节点来进行7B模型预演习,半精度和全精度演习效果可与英伟达平台完备对齐;与租用英伟达GPU比较,利用国产超算可节省6倍旁边的本钱。
加载开源的百川2—7B模型进行推理,推理精度也与英伟达同等。
更为关键的是,从本钱角度考虑,在上述超算平台上演习大模型,只需花费英伟达系统六分之一的本钱。

谈及当前智能算力行业面临的痛点,郑纬民直言,构建国产万卡系统很难,但很有必要,未来还是要繁荣国产卡的生态系统,做好软硬件的协同设计,同时办理大模型根本举动步伐的几大问题。
“虽然很难,但只要我们努力,与芯片公司互助,一定能将万卡系统做好。
”郑纬民称。

逐日经济新闻

标签:

相关文章