首页 » 智能 » 运用UCS(On-Premises) 治理您的GPU本钱池释放AI大年夜模型算力潜能_华为_模子

运用UCS(On-Premises) 治理您的GPU本钱池释放AI大年夜模型算力潜能_华为_模子

雨夜梧桐 2025-01-20 08:18:16 0

扫一扫用手机浏览

文章目录 [+]

芯片作为算力根本举动步伐,是推动人工智能家当发展的动力源泉,由于GPU比CPU更适宜处理企业数据中央和超大规模网络中AI和机器学习所需的许多打算,数据中央对GPU的需求一贯不断增长。

在算法演习推理领域,以“大模型”为代表的人工智能算法模型表示出模型参数的数量不断增加的趋势,高度繁芜化的模型融入运用程序后可能带来演习、推理框架的适配难度的增加,而在交付和支配后对模型的修正也会给用户带来做事中断等问题。

运用UCS(On-Premises) 治理您的GPU本钱池释放AI大年夜模型算力潜能_华为_模子 智能

为顺应AI“大模型”时期的发展,亟需办理如下技能寻衅:

提升GPU资源资源率:AI大模型进入万亿参数时期,远超单GPU芯片能力,演习框架须要将演习任务分发至不同GPU分别运行,并在GPU间共享结果,大规模的GPU集群应运而生;在当前GPU算力稀缺且价格高昂的背景下,如何统一管理数据中央构建规模GPU集群并汇聚分散的GPU算力,根据大模型任务按需分配GPU算力,提升整体的GPU算力资源利用率,一贯是云打算AI领域关注的技能焦点;统一的AI算力调度平台:近几年人工智能快速发展, 各种深度学习框架不断呈现,如TensorFlow、CNTK、MXNet、PyTorch和Caffe2等,海内机构亦推出了 PaddlePaddle、MindSpore、 Seetaface、FudanNLP等;面对浩瀚AI开源框架及组件,亟需统一的调度平台降落AI演习任务的支配繁芜性、提升AI演习、推理任务效率。
UCS (On-Premises) 搭载xGPU&Volcano智能调度引擎,加速数据中央AI打算

华为云分布式云原生UCS做事,是面向分布式云场景下的新一代云原生产品,供应UCS (Huawei Cloud)、UCS (Partner Cloud)、UCS (Multi-Cloud)、UCS (On-Premises) 以及UCS (Attached Clusters) 等产品,覆盖公有云、多云、本地数据中央、边缘等分布式云场景。

个中,华为云UCS (On-Premises) 做事是在大规模分布式、高安全合规、高性能的互联网运用驱动下,产生的新一代集开拓运维、发布管理为一体的云原平生台,支持将容器管理能力延展至用户数据中央,供应云上云下同等的操作体验。
针对用户在本地本地数据中央AI打算的诉求,用户可通过UCS(On-Premises)供应的GPU虚拟化、AI任务管理及调度能力,轻松应对大模型时期的GPU资源利用率及统一的AI框架调度平台的技能寻衅:

GPU资源利用率提升:随着大模型爆发式发展,金融、制造、互联网等行业纷纭构建行业大模型,须要采购大量的GPU资源知足业务诉求,但是在实践调研创造,很多AI做事虽然利用GPU,但是GPU的利用率普遍不高(显存均匀小于30%,GPU算力小于1%),为了充分利用紧张而宝贵的GPU资源,华为云通过GPU虚拟化、华为如斯原生操作系统HCE(Huawei Cloud EulerOS)等核心技能,供应GPU的显存、算力隔离能力,促进不同的AI任务可充分利用单张GPU,充分压榨GPU的算力资源,并结合高速网络,促进AI任务行列步队对GPU资源的充分共享,提升IDC的整体GPU资源利用率;统一的AI算力调度平台:结合华为云智能调度引擎volcano、智能洞察引擎等能力,快速构建云原生AI根本举动步伐平台,支持Tensorflow、Pytorch、MxNet、MindSpore等通用AI演习、推理框架及丰富的AI调度策略,提升分布式演习的能力,同时基于云原生技能的开拓集成及支配,结合底层硬件根本举动步伐,构建“运用+资源”感知调度能力,促进AI运用及核心业务运用的共同运行,帮助企业敏捷、高效、安全地利用数据进行大模型运用开拓,并在运用支配过程中实现本钱优化和灵巧的版本掌握。
华为云xGPU技能,原生兼容AI容器运用,实现GPU算显隔离、故障隔离

为了在容器场景下充分利用GPU资源,办理上述提到的算力隔离、显存隔离、故障隔离,华为云在HCE(Huawei Cloud EulerOS)内核根本上研发了xGPU技能,针对人工智能场景,实现多个AI容器共用一张显卡,同时具备业务的安全隔离,保障多组任务有效利用同一张GPU物理卡,大幅度提升AI演习任务在UCS(On-Premises)集群的运行体验,目前xGPU能力已经完备落地在UCS(On-Premises)平台之上,如下是整体架构:

xGPU不仅实现单卡GPU虚拟化,还原生兼容kubernetes生态:

深度兼容kubernetes: xGPU技能原生与kubernetes深度兼容,无侵入式修正厂商驱动和代码库,运行时无需更换CUDA库;适配标准的Containerd事情办法,容器业务无需任何改造。

GPU资源灵巧隔离: xGPU实现了物理GPU的资源任意划分,根据演习任务的配置哀求按照不同比例灵巧隔离;可从算力、显存两个维度进行细粒度划分,达到MB级显存隔离、5%粒度的算力划分。

总结展望

UCS(On-Premises)旨在将云上的做事能力延伸至各行业的客户确当地数据中央,结合volcano的AI作业管理及智能调度能力、xGPU的GPU虚拟化能力,帮助用户快速在IDC构建云原生的AI根本举动步伐,更细粒度的利用GPU资源,让用户聚焦AI的业务开拓,最大限度开释AI大模型算力潜能。

查看原文,理解更多信息:【利用 UCS(On-Premises) 管理您的GPU资源池,开释AI大模型算力潜能-云社区-华为云】

参考:

《人工智能标准化白皮书》(2021版)

《人工智能安全标准化白皮书》(2023版)

《华金证券:AI家当化再加速,智能大时期已开启-GPU行业深度报告》

《艾瑞咨询:2021年中国云原生AI开拓平台白皮书》

关注@华为云,理解更多资讯

标签:

相关文章

PL2303GL USB 接口_电路板_电路

USB to serial Converters[1]▲ 图1 参考电路二、电路设计  根据参考设计电路绘制 TypeC 接口的调...

智能 2025-01-22 阅读0 评论0