首页 » 互联网 » X400超级AI以太网基于Spectrum-X大年夜幅提升万卡GPU演习机能_模子_以太网

X400超级AI以太网基于Spectrum-X大年夜幅提升万卡GPU演习机能_模子_以太网

落叶飘零 2024-12-02 07:08:00 0

扫一扫用手机浏览

文章目录 [+]

为了提升大规模AI打算的通信效率,出身了全新的超级以太网产品。
此前,浪潮信息发布了面向天生式AI的「X400超级AI以太网」交流机,海内首款支持NVIDIA Spectrum-X平台技能,并基于X400和BlueField-3 SuperNICs打造端网协同的X400超级AI以太网(X400 AI Fabric)方案,大幅提升万卡GPU演习性能至1.6倍,实现了与专用网络架构媲美的网络性能,确保客户能以最空想的办法构建网络根本举动步伐,从而显著加速AI模型的迭代和业务创新进程。

X400超级AI以太网 专为AI大模型打造

X400超级AI以太网基于Spectrum-X大年夜幅提升万卡GPU演习机能_模子_以太网 互联网

ChatGPT的发布掀起天生式AI的发展热潮,大模型的参数量从千亿提升至万亿,能力得到质的飞跃,大模型作为新型的生产工具,推动着千行百业的快速创新。
随着大模型时期的竞争愈发激烈,大模型的迭代能力已经成为市场竞争力的核心,以是国内外的AI大模型厂商纷纭投资构建超大规模的算力资源,压缩大模型演习周期,以快速迭代,灵巧应对市场变革。

但随着算力规模的不断上涨,单颗芯片的性能不再是决定性的关键,AI系统的效率成为用户关注的焦点。
目前在AI大模型用户的演习过程中,网络通信占演习时长可达20~40%。
例如之前 Meta的统计数据显示,在 AI 演习中网络通信时长占比均匀霸占了 35% 的韶光(最高时 57%),这即是花费数百万或数十亿美元购买的 GPU 有 35% 的韶光是空闲的。

为提高GPU资源利用率,网络通信效率亟待提升。
但传统RoCE网络ECMP的HASH不均问题,导致整体链路负载利用率低,难以应对天生式AI场景下GPU之间会突发超高吞吐的独特通信模式,直接影响演习完成韶光。
而专用网络方案虽然可以知足性能需求,却无法兼顾已经构建完善的以太网生态系统。
客户不仅须要高带宽、低时延、零丢包的基本网络性能,还需关注多租户、多业务并发隔离、缩短业务支配韶光。

如何为AI大模型演习培植高性能网络,成为当下网络技能研究的新焦点。

不久前,浪潮信息「X400超级AI以太网」基于Spectrum-X平台,通过领先的端网协同技能,为AI大模型演习网络培植开辟了一条新道路,从性能、可扩展性、稳定性和用户体验四个方面完美应对客户面临的寻衅,实现 AI 业务的最佳效率,将客户在纠结采取以太还是专用网络的状态中拯救出来。
与此同时,超级AI以太网交流机X400采取开放架构,遵照S3IP-UNP规范设计,实现软硬件分层解耦,通过构建网络开放生态,加速客户业务创新。
16K张GPU卡打算规模下的GPT3模型演习实测中,超级AI以太网实现性能打破,达到传统RoCE的1.6倍。

超高性能 带宽利用率提升至95%并降落长尾时延

网络性能是核心,也是知足AI大模型演习的根本。
X 400超级AI以太网方案采取了X400加智能网卡的协同调度,通过自适应路由、报文保序、可编程CC等技能,实现交流机和网卡更加紧密的合营,为AI大模型供应零丢包、无壅塞的全链路交流网络,机间互联性能400G,有效带宽从传统的60%提升到95%,性能达到传统RoCE的1.6倍。

− 网络侧:传统的ROCE方案在进行转发路径选择时采取静态hash打算方法,没有考虑路径负载状态,导致多条流可能选择相同的路径,从而导致了数据包的堆积,降落了网络吞吐率。
X400在交流机侧采取包喷洒技能,供应基于数据包的细粒度路由调度,在网卡侧供应保序做事,实现构建整体端到真个无壅塞网络,比较于传统的RoCE方案仅在交流机上进行路径选择和拥塞掌握的办法,将彻底改进网络流量的负载均衡问题,全面优化流量的路径分布。

− 端侧:包喷洒会带来一个新的问题,便是一个流里的多少个数据包,可能会选择走不同的路径,导致数据包到目的端可能会乱序,如何将乱序到达的数据包重新编排、纠正,则依赖于智能化网卡的保序做事,通过DDP(直接数据放置)技能实现乱序重排,再转发给上层协议,通过这两个技能的叠加,结合X400感知本地、远端链路负载状态,实时调度转发路径,终极使得在上层协议对乱序无感的情形下,有效带宽大幅提升。

同时,浪潮信息凭借独占的Auto ECN拥塞掌握技能,降落长尾时延。
创新性的将人工智能技能引入到ECN调优算法里,采取两百万组的流量模型,覆盖主流的大模型演习流量特色,来对ECN神经网络算法进行演习。
Auto ECN技能可以结合链路的拥塞状态,网络拓扑和是非流的实时状态进行动态的参数调度,供应拥塞掌握最优解,整体缩短30%的FCT,最大化GPU的利用率。

此外,AI大模型演习的网络优化离不开NCCL通信库支持,X400和IB一样,天然的与NCCL无缝衔接,能够为大模型供应最高的性能,而其他交流方案须要对NCCL通信库进行修正和优化。

基于以上核心技能,X 400超级AI以太网方案通过在256卡GPU的演习场景下实测,在多项核心指标上显著优于传统RoCE:

− 在RDMA跨Spine 4K MTU 1 QP性能测试中, X400 AI Fabric的带宽性能是传统以太网的4.3倍,靠近理论峰值。
同时,延迟方面,延迟比传统以太网低了2.2倍。
这意味着X400 AI Fabric在数据传输和处理速率上远超传统RoCE,更适宜构建超大规模的算力系统;

− 在智算中央的多租户环境下,测试NCCL all to all和all reduce的隔离性能,X400 AI Fabric分别表现出1.1倍和1.5倍的性能提升。
这对付须要高效通信和数据同步的AI演习任务来说,显得尤为主要;

− 在多租户AI运用的性能隔离测试中,利用Nemo LLM 43B模型和FSDP LLAMA 70B模型时,X400 AI Fabric的迭代韶光分别比传统RoCE快1.2倍和1.4倍。
这意味着我们可以更快地完成演习任务,更快的得到演习成果。

总的来说,X 400超级AI以太网不仅在带宽和延迟上远超传统以太网,更是在大规模算力群和繁芜的多租户场景中保持了卓越的性能表现,大大加速了AI模型的演习过程,充分开释客户构建的算力系统代价。

超大规模 算力资源灵巧拓展支持数十万卡

伴随着天生式AI的迅猛发展,模型参数量连忙膨胀,单个CPU、GPU乃至多个GPU上无法完成模型演习的寻衅。
为此,智算中央常日会采取分布式演习技能,对模型和数据进行切分,采取多机多卡的办法演习,通过构建恒河沙数的GPU系统来提升算力,大幅缩短演习周期,这就须要智算网络能够具备支持大规模GPU 做事器系统的能力,供应高性能、灵巧可拓展的网络做事,以知足未来不断变革的GPU通信负载需求。

X400超级AI以太网在超高的端口密度以及弹性可拓展的能力加持下,具备超高性能的同时,可以知够数十万卡级别的算力规模,在二层组网下,GPU做事器数量可达1024台,支持8K张GPU卡,可根据算力规模灵巧拓展到三层组网,GPU做事器规模可达64000台,最大支持GPU卡的数量可以达到512K张,知足各种规模的组网哀求,灵巧的弹性组网成为业务创新的强大助力。

超高可靠 确保业务极致稳定

大模型演习的稳定性至关主要,根据专业剖析机构semianalysis显示,超十万卡的 GPU因网络链路故障导致的模型演习重启所花费的韶光,将比模型演习本身所花费的韶光更多,因此企业难以接管网络导致的业务中断,只有稳定可靠的网络才能知足AI场景的苛刻哀求。
为此,浪潮信息集成了系统级的高可用技能,全方位保障AI网络的极致稳定。

− 在硬件层X400集成了IGE智能防护单元,对关键部件器件进行冗余备份,对关键硬件旗子暗记进行全面的监控和故障隔离,确保硬件层面高可靠,由于电子元件都难以避免老化和性能衰减,通过供应高速链路级的性能衰减预警,对Serdes关键参数定期检讨,提前预警高速链路性能可能涌现的劣化或者故障,发送提醒,避免链路的溘然中断影响业务;

− 通过集成的网络监控模块,以及多种高精度的遥测技能,如buffer、Congestion、日志等,X400实现芯片级、系统级以及链路完全的监控,可以监控到底层链路的状况拥塞,二三层转发状况,全体包转发延时的变革,乃至包括RDMA任务链路的变革,全面节制AI节点间通信状态;

− 结合以上监控的数据,通过路径重选机制,X400可以对潜在的故障链路进行自动隔离,在上层运用无感的情形下实现故障自愈。
对付小概率涌现的链路故障,如果是本地链路上行,可以通过硬件感知进行亚毫秒级的路径切换;如果本地下行链路故障,采取快速重路由技能,自动切换到备份路径上,韶光上略慢于上行链路故障;如果发生远端负载断链,须要在更远侧对路由进行调度和均衡,通过在BGP协议优化多项设置,将全体链路规复韶光缩短到毫秒级,整体上无论哪种链路故障均可以实现毫秒级的故障自愈。

极致体验 提升整体运营效率

随着算力资源的不断投入,须要管理和配置的网元设备不断增加,基于传统RoCE方案的网络培植,涉及一系列繁杂多样的配置,缺点的配置导致的演习性能低落,意味着业务上线以及运营掩护的难度陡增,而且省心的方案每每带来本钱飙升,业务尚未开展就困难重重。

为此,浪潮信息X400超级AI以太网方案延续了以太方案的兼容性和性价比,确保敏捷运维和超高性能的同时,大幅降落网络培植TCO,并为客户打造一键式自动化的支配模式,实现模型特色自适应的网络配置,将支配周期从数周缩短至数天,加速业务上线,结合全面可视的智能运维平台,直不雅观创造潜在风险与故障,担保业务的连续性。

浪潮信息基于Spectrum-X平台打造的X400超级AI以太网办理方案,为智算中央客户带来三大核心代价:速率、效率和经济性,全面优化业务体验。
该方案凭借其超高性能,支持万卡超大规模无损网络,实现算力资源的最大化利用,并具备多重可靠技能,确保算力资源高可用保障大规模模型演习和推理业务能够高效稳定不间断地运行。
此外,该方案通过其卓越的本钱效益,助力客户大幅提升投资回报,实现本钱与效益的完美平衡,为智算中央客户打造更快、更好、更省的网络业务体验。

标签:

相关文章

IT17精度,引领未来智能制造的先锋力量

随着科技的飞速发展,智能制造已成为全球制造业转型升级的关键。其中,IT17精度作为我国智能制造领域的先锋力量,正引领着行业变革。本...

互联网 2024-12-28 阅读0 评论0

IT201B,新时代信息技术发展的里程碑

随着科技的飞速发展,信息技术已经成为推动社会进步的重要力量。在我国,信息技术的发展历程更是充满了创新与突破。今天,我们要探讨的是I...

互联网 2024-12-28 阅读0 评论0

TP-LINK路由器不工作故障检修_电压_电路

剖析与检修:通过故障征象剖析,疑惑电源电路非常。电路板实物如图1所示。图1用万用表检讨电源适配器输出的9V供电正常,拆机测D2电压...

互联网 2024-12-28 阅读0 评论0

IT30减肥法,介绍高效健康的减肥新潮流

随着生活水平的提高,人们对健康的追求越来越重视。在这个以瘦为美的时代,减肥已成为众多人关注的焦点。近年来,一种名为IT30的减肥法...

互联网 2024-12-28 阅读0 评论0