首页 » 互联网 » 计算效率提升超60倍!中国公司杉数科技用GPU芯片开启运筹学新的“大年夜航海时代”|钛媒体焦点_算法_运筹学

计算效率提升超60倍!中国公司杉数科技用GPU芯片开启运筹学新的“大年夜航海时代”|钛媒体焦点_算法_运筹学

落叶飘零 2024-12-21 22:07:14 0

扫一扫用手机浏览

文章目录 [+]

数周之前,芝加哥大学商学院的鲁海昊教授创造,原来传统依赖英特尔/AMD CPU(中心处理器)芯片进行打算的数学方案求解器(Solver,下称“求解器”),如今却可以打破技能瓶颈。

详细来说,鲁海昊教授团队通过实验创造,求解器能够通过英伟达GPU(图形处理器)和CUDA库函数,设计高效的数学方案算法cuPDLP来求解超大规模问题,并表示出了打算优胜性,其研发的cuPDLP软件(Julia版本)也验证了这一点。
而该研究成果日前揭橥在arxiv上。

计算效率提升超60倍!中国公司杉数科技用GPU芯片开启运筹学新的“大年夜航海时代”|钛媒体焦点_算法_运筹学 互联网

此后,鲁海昊团队与斯坦福大学博士、杉数科技首席科学家葛冬冬教授团队进行了紧密互助:在最顶级的打算举动步伐,英伟达GPU H100多显卡集群上,团队对自己研发的cuPDLP-C求解软件(C措辞版本)进行了实验,验证GPU能否实现线性方案问题求解的“弯道超车”。

钛媒体App获悉,2023年12月8日,杉数科技团队在中国运筹学会算法软件与运用分会成立大会上,报告了他们在英伟达H100 GPU显卡上,成功验证了cuPDLP-C求解超大规模线性方案问题(LP problem)的显著上风。
在多个经典测试集上,对付大规模问题,算法表示出了不亚于传统商业求解器的表现,并且在多个大问题上有明显求解上风。

例如,从求解效率来看,领域内著名的测试问题zib03,比较四年前用CPU求解的16.5个小时(用英特尔至强E7-8880 v4),如今在英伟达H100下,cuPDLP-C求解打算韶光直接缩短至916秒,韶光缩短了64倍。

相较于2009年的CPLEX,打算韶光从139天到现在的15分钟,这完备颠覆了数学方案算法设计“只有CPU能做”的传统认知,“降维打击式”地提升了求解打算效率。
同时,由于目前cuPDLP-C已经在GitHub上开源,因此全体成果也将让更多人受益。

葛冬冬对钛媒体App表示,“这件事意义重大,它将在未来3-5年对全体运筹学从科研抵家当都会产生巨大改变。
某种程度上,我认为它将开启一个运筹学科新的‘大航海时期’。

“有四点对领域的可能冲击吧。
首先,这套算法思想推广之后,不仅用在线性系统上,而且对全体连续优化领域都会产生影响,进而深刻影响整数方案打算领域,这对应求解器运用处景中80%的问题;第二,GPU干系的一阶算法设计和实行相对大略,这将使得求解器社区部分模型对应的算法开源化;而专业求解器往后可能跟目前许多toB的AI公司相似,在专业求解和基于GPU的函数定制服务方面都可以发力,带来新的商业机会。
第三,求解器会变得更加重视硬件,将须要大量适配的专用高精度打算显卡,以及须要高效的库函数实现。
海内很多 AI 芯片也可以运用,形成一个软硬一体化的生态;求解器往后的做事也更可能呈现一个软硬一体化绑定的做事能力。
第四,有鉴于求解能力限定,全体运筹学研究的核心之一实在便是如何将大问题分解,分步骤,或者降维求解,而随着GPU求解算法的“暴力”求解大问题能力剧增,可以预期运筹学领域,也包括干系的多个商科和工科领域的科研范式和家当形态也将随之极大改变,乃至重塑。
”葛冬冬见告钛媒体App。

很显然,通过GPU显卡的算力加持,对已经发展70余年、古老且严谨的运筹学科将会带来革命性的冲击。

打算韶光缩短超过64倍,GPU芯片将加速求解更多繁芜问题

运筹学是近代运用数学的一个分支,紧张是研究如何将生产、管理等事宜中涌现的优化问题加以提炼,然后利用数学方法进行办理的学科。

美国物理学家,曾任加州大学柏克莱分校教授的Charles Kittel早在1947岁首年月次提到“Operations Research”一词,中国则在1957年由中国工程院院士许国志、清华大学根本科部教授周华章正式定名为“运筹学”,并于1980年景立中国运筹学会(ORSC)。
运筹学在环球发展至今已超过70年。

个中,数学方案是将现实问题转化为数学模型并求解的过程。
数学方案求解器作为这一过程的核心软件,专门针对多种线性、整数和非线性方案模型进行算法优化。
它可以被视为一个“黑盒子”系统,业界亦称之为算法领域的“芯片”。

求解器的主要意义在于,它能办理生活中非常繁芜的运用数学问题。
例如,2018年平昌冬奥会的闭幕式上,中国接棒八分钟展示里涌现的无人仓机器人引起环球关注。
但如何打算这些机器人的运行路线,为了确保这些机器人运行高效且避免碰撞,须要依赖最优算法,而背后依赖的便是求解器。

在此之前,求解器的核心打算硬件大部分依赖于CPU(中心处理器)芯片,紧张缘故原由是CPU的通用能力可以更广泛运用于浩瀚打算系统和 算法实现,而且英特尔、AMD干系软件框架都非常完好,特殊是繁芜高精度的各种矩阵运算,大大降落求解方案本钱,并提高打算效能。

葛冬冬指出,芯片这类硬件是求解器底层的核心举动步伐。

长期以来,GPU采取与CPU不同的底层架构,打算核心数量、软件和性能处理方案与CPU的底层逻辑差异极大。
而国内外科研职员希望能够通过GPU或是其他类型芯片可实现线性方案的加速打算,但多次实验结果显示,GPU一贯无法高效求解算法中的“矩阵求逆”或者“矩阵分解“问题,无论是打算精度(物理缘故原由)还是并行打算,它都无法做到。

“未能打破的缘故原由是,求解器的核心底层只假如这种连续优化问题,不管是线性还是非线性,传统算法中都躲不开如何高效求解‘矩阵分解’这一步。
这个问题办理不了,GPU几千个打算单元并行加速的上风就无法表示。
”葛冬冬对钛媒体App表示,“矩阵分解”紧张对应线性方程组求解,是打算最关键一步。
一旦矩阵规模过大或者构造繁芜,这个步骤每每会造成内存溢出或者求解韶光极长,成为求解桎梏。

杉数科技首席科学家葛冬冬教授

早在2016年,葛冬冬联合几位当年在斯坦福的博士同学,共同成立了杉数科技,研制了第一个国产专业求解器,避免受制于人。
如今,作为智能决策技能做事公司,杉数科技以其自研大规模商用求解器COPT为核心引擎,打造了“打算引擎+决策技能中台+业务场景”的端到端智能决策技能平台,为消费零售、交通物流、能源电网、制造与供应链等多个行业供应数字化供应链办理方案,利用运筹优化和机器学习找出更优的决策方案,全面提升家当链和供应链运营效率和效果。

葛冬冬此前向钛媒体App透露,利用COPT数学优化求解器这种优化决策,可以使生产排程订单知足率提高20%,产能丢失率降落30%,排产排程人工干预降落70%,非操持维修降落15%。
同时,杉数科技COPT数学优化求解器一贯在环球求解器榜单中名列前茅。
(详见钛媒体App前文:《超越阿里达摩院成绩,这个斯坦福团队用“国产求解器”助中国企业实现智能决策》)

而此前葛冬冬团队研发的COPT求解器系列,紧张是利用CPU芯片进行打算处理的。

“事实上,过去十几年,这个领域内,包括我们,国内外学术界无数人,都在前赴后继地努力,试图回答这个问题:GPU/CUDA架构能否对数学方案求解器起到弯道超车的浸染。
此前的答案一贯为‘否’。
”葛冬冬表示。

然而,2023年11月初,葛冬冬的互助伙伴,鲁海昊教授在arXiv上揭橥了一篇论文,他们公开的cuPDLP代码,通过GPU硬件成功办理了线性方案求解打算问题,可用在这段Julia代码中求解线性方案。

葛冬冬说:“鲁老师打破这一长期瓶颈的技能方案,是他们不雅观察到以前的CPU/GPU稠浊架构求解中,CPU/GPU之间的交互每每占用了绝大部分耗时,因此他们在此前他们与谷歌互助建立的PDLP求解器根本上(此求解器可以很好办理GPU打算精度无法达到10^-8精度哀求的限定),将整套算法搬到了GPU/CUDA架构下实现。
捅破了末了一层窗户纸!

此后,鲁教授与葛冬冬教授领导的杉数COPT团队紧密互助,提出开源技能方案cuPDLP-C,即用一阶方法在GPU上办理线性方案问题,也是Julia版本cuPDLP.jl的C措辞加强版,算法上也做了进一步的改进和提高。

与此同时,通过在目前最强的显卡H100上的实验创造,在运筹学最经典的测试集MIPLIB2017的383个线性松弛测试问题求解中,以10^-4 精度哀求,cuPDLP-C已经可以求解到379个问题,而以严格收敛的标准10^-8 精度哀求,cuPDLP-C也可以求解到369个问题。
总体求解韶光与目前最好的商业求解器的差距也拉近到了2倍(10^-4精度)和6倍(10^-8)精度之内。
在测试集那些大问题中的差距明显更小,在10^-4精度下乃至表示出了打算上风。
此外,葛冬冬团队还在多个更大规模问题上进行了广泛测试,cuPDLP-C的上风明显,例如zib03问题加速了64倍,而多个更大规模的测试问题,如在谷歌的Pagerank、某海内大企业供应链项目问题、经典的二次分配问题(QAP)等问题的测试上,传统求解器都无法求解,而cuPDLP-C可以做到可行韶光内求解。

很显然,对付超大数学方案问题,在性能、打算速率、求解数量等方面,GPU都能比CPU都展现出了更好的前景。

杉数科技资深副总裁,技能卖力人皇甫博士对钛媒体App表示,利用GPU硬件,现在cuPDLP-C可以让之前难以办理的大规模优化问题变得易于办理,推动了模型建立的精确度和规模。
以前因CPU限定而采取的非常精密繁芜的一些求解技巧可能不再须要。
此外,一旦GPU提速上百倍,cuPDLP-C求解上风可能拓展到其他连续优化领域,极大加速求解过程,让原来耗时的问题快速得到办理,从而打开新的运用可能性。

葛冬冬见告钛媒体App,“这很胆怯。
对付运筹学来说,这一技能意外冲破了一个长期以来的定论,即GPU在求解数学方案问题上没什么加速效果。
这一创造会让全体学术和工业界感到惊异,由于之前从未有人预见到这种情形。

他强调,cuPDLP-C技能推翻了运筹学科长期以来的一些共识和定式,超出人们预期,利用GPU提高了求解器的性能潜力,可能使运筹学实现从CPU到GPU打算带来的“范式转变”。

目前,cuPDLP-C技能代码已经开源,干系论文也已经公开拓表在arXiv上。
GitHub地址:https://github.com/COPT-Public/cuPDLP-C

20年性能提高约7000倍,GPU本钱过高是否将制约行业发展?

过去一年,以ChatGPT为代表的天生式 AI 技能风靡环球。
而作为以95%的市场霸占率垄断了环球 Al 演习芯片的英伟达,成为了这轮 AI 混战的最大赢家,其研发的A100/A800、H100/H800等多款 AI 芯片成为 AI 热潮中的“爆品”。

正如英伟达自己所说:“GPU 已经成为人工智能的罕有金属,乃至是黄金,由于它们是当今生成式 AI 时期的根本。

从技能角度来说,GPU优于CPU,特殊是在并行打算能力、能耗效率和CUDA生态等方面,它的高算力和可扩展性使英伟达GPU成为AI加速芯片市场的首选。

根据斯坦福大学最近发布的一项报告显示,自2003年以来,GPU性能提高了约7000倍,单位性能价格也提高了5600倍。
该报告还指出,GPU是推动 AI 技能进步的关键动力。

英伟达首席科学家Bill Dally也曾表示,NVIDIA GPU在过去十年中将 AI 推理性能提高了1000倍。

从运筹学角度来看,将CPU更换为GPU,打算能力、打算效率大幅提升。
但问题在于,海内可以买到的H100/H800、A100/A800的价格都已经超过20万/张,再加上存储、NVLink互连、运维本钱等,比较CPU,基于GPU的求解本钱将进一步攀高。

那么,求解打算的根本举动步伐本钱,是否会成为未来求解器乃至运筹学发展的主要制约成分?

葛冬冬对钛媒体App表示,目前只是基于GPU架构的优化算法的“拓荒期”。
目前,他们已经与多家国产 GPU芯片厂商开展了广泛的测试互助,希望能够利用国产算力推动中国求解器行业发展。
确实有部份国产GPU芯片已经具备了跑通算法的能力,但是也确实,还须要在芯片速率和库函数完备程度上做进一步培植。

而且,他认为,杉数也已经积极与商业伙伴开始积极探索这一技能的落地与运用前景。
目前已经开始在电力系统的出清调度问题这一大规模繁芜系统问题上,与南网总调互助,探寻利用GPU架构的优化求解算法来加速求解打算的研究。

谈及开源与商业化的话题,葛冬冬认为,把cuPDLP-C开源可以推动行业进一步发展,对付商业化求解器来说肯定会有一定冲击,但GPU求解大规模问题的新思路也带来了巨大的机会,目前来看,杉数科技在核心技能、商业化等层面还有非常领先的市场竞争上风。

“新的大门已经推开。
过去20年,大家一贯在考试测验推开,但门被‘锁’去世了。
现在即是是创造‘锁’能打碎,门是能推开的。
这就意味着运筹学算法又进入了一个新的‘大航海时期’,一个堪比‘西部掘金热’的时期。
我们已经走出(开源)这一步。
我们对自己的技能有信心,过去七年,从无到有,再到国际领先,杉数一贯都在科研、技能和实践运用上,是海内求解器市场的领航者。
在这个经我们的手打开的新时期,我相信,我们是不会掉队的。
”葛冬冬表示。

(本文首发钛媒体App,作者|林志佳)

标签:

相关文章

芯片与纯金丝结构图_庞杂_芯片

999纯金丝半导体芯片内部构造 半导体芯片虽然个头很小。但是内部构造非常繁芜,尤其是其最核心的微型单元成千上万个晶体管。我们就来为...

互联网 2024-12-23 阅读0 评论0