国家信息中央今年3月发布报告指出,我国大量数据中央做事器的算力均匀利用率只有5-10%,绝大多数韶光都处于“摸鱼”状态。而在AI演习过程中,当前业内集群MFU(模型AI算力利用率)普遍只有30%-50%旁边。在国家大力推动数字根本举动步伐培植,加快新质生产力高质量发展的大背景下,如何有效利用数字根本举动步伐,充分挖掘算力资源,提高模型训推速率,助力业务发展,已经成为很多企业的“燃眉之急”。
本期《数智QA》,我们就来一起聊聊这个老大难问题——提高算力利用率,为企业降本增效。看看把算力从“佛系”变成“斗士”都有哪些绝招。

为什么AI演习时算力利用率普遍都比较低?

AI演习故障频发、故障规复韶光较长,网络通信瓶颈等问题,这些都会导致AI算力利用率低下。
有统计表明,就算是业界顶尖的云厂商,其千卡演习集群每个月也得至少发生15次故障,每次规复还得数小时。随着AI集群规模从千卡到万卡,故障中断次数及规复所需韶光呈指数级增长趋势。
其余,还得提提算力集群的网络通信,它假如“堵车”了,算力利用率也得随着“趴窝”。有数据表明,网络的丢包率达到1% 时,集群中的GPU利用率就会在原有根本之高下降 50%。
算力利用率低会给企业带来哪些影响?
资源摧残浪费蹂躏:企业花了大把银子购买的打算能力却没有带来实际代价。这不仅会造成资源摧残浪费蹂躏,还增加了企业运营本钱。
本钱增加:企业须要支付更多的资金来坚持这些未充分利用的资源,投资回报率低。
竞争力低落:高效的算力利用率是企业保持竞争力的关键。算力利用率低会使企业无法及时相应市场变革,降落企业竞争力。
其余,低算力利用率还会导致能源花费和碳排放增加,对环境产生不利影响。
如何才能提高算力利用率?
提高打算集群的算力利用率涉及软硬件、网络及演习策略等多个层面。
先说硬件配置。利用高性能打算节点,如专业的AI芯片或高端GPU,以确保单节点的打算能力最大化。同时,根据AI训推任务的需求,合理配置做事器的内存、存储和I/O性能,别让哪个环节成了“拖油瓶”。
软件与算法也不能落下。演习时必须得用上更高效的深度学习框架,如TensorFlow、PyTorch等。其余,还要对算法进行并行化处理,以充分利用多核处理器及多GPU上风。
再来说说网络性能。须要采取高带宽、低延时、低抖动、低丢包率的前辈网络,并配置网络负载均衡策略,才能让数据跑得又快又稳。如遐想HPC、智算集群就采取了高效的InfiniBand、RoCE网络,以充分知足AI大规模并行打算哀求。
分布式演习策略也得安排上。采取数据、模型或流水线并行等分布式演习办法,并采取更高效的资源管理与调度器、利用缓存机制及训前预热策略、通过调度及优化超参数等方法,也可以显著提升算力集群的性能和效率。
在详细履行时,企业会碰着哪些寻衅?
首当其冲的是技能方面的拦路虎。企业会碰着异构算力整合及协同,跨物理资源、跨芯片、跨节点,乃至跨集群的资源池化、算力扩展等问题。
其次,管理方面的寻衅也让人头疼。如何根据任务需求动态地调度和分配算力资源,同时避免资源的摧残浪费蹂躏,切实其实就像一场算力拼图游戏。
末了便是“本钱“这座大山。要提升算力利用率,不管是软件、硬件、职员培训、运营、掩护等等,都须要有”钞能力“才行。
遐想是如何为企业办理这些问题的?
作为中国领先的智能IT根本举动步伐供应商,遐想为了企业能高效利用根本举动步伐加速智能化转型也是操碎了心。
今年以来,遐想不断完善“全栈稠浊AI”计策布局,在AI终端、AI根本举动步伐和AI办理方案与做事等领域持续发力。特殊是在AI根本举动步伐领域,遐想推出了遐想万全异构智算平台。
遐想万全异构智算平台是AI 2.0时期遐想中国根本举动步伐计策框架的核心。该平台既可以自动完成AI打算并发布模型或发布推理做事,又可以实现对数据和模型优化,智能打算、科学打算(HPC)、通用打算等算力匹配,管理调度及对演习和推理过程的监控。而且,平台还特殊知心肠给专业AI开拓用户留足了手动深入调度打算过程的空间,包括工具和模型的选择、算力配置的调度、对任务的定制化监控等,真真做到了“我的地盘我做主”。
详细而言,遐想万全异构智算平台集成了算力匹配魔方、GPU内核态虚拟化、遐想凑集通信算法库、AI高效断点续训技能、AI与HPC集群超级调度器等五大创新技能。这五大技能在根本举动步伐层面可显著提升算力利用率和可用性。对付用户而言,则可从不同方面帮助用户提高运用支配速率和运用门槛,降落业务TCO(全周期利用本钱),让用户用起来“如有神助”,省钱又省心。
遐想万全异构智算平台是如何帮助企业提升算力利用率和可用性的?
遐想万全异构智算平台集成的五大创新技能里,有四项技能聚焦在帮助企业提升算力利用率和可用性的算法创新。
个中,在GPU内核态虚拟化方面,遐想通过对算力和显存精准隔离算法、驱动层资源调度、颗粒度风雅管理三大改造,已经将GPU虚拟化效率提升至95%,极致情形下可达99%以上。
在遐想凑集通信算法库方面,遐想通过对网络通信架构的调优,使AI演习效率相对业界领先方案进一步提升10%-15%。
而对付集群AI演习中的故障中断问题,遐想积累了全面的AI演习故障特色库,并对断点续训做了数据多级备份、AI预判及综合监控能力提升等三方面改造。这样一来,就实现了AI演习分钟级续训,估量不久将实现秒级续训。
末了是超级调度。遐想的异构集群超级调度器架构在AI的K8S和HPC的Slurm调度之上,可对所有类型的打算任务全面监控并自动实现AI节点和HPC节点的扩缩容,彻底破局算力孤岛,提升算力利用率和可用性。








