随着ChatGPT等AIGC运用掀起大模型浪潮,算力层作为根本举动步伐,成为最先受益的家当。
然而,算力需求大、用度昂贵等问题,已成为企业落地大模型的普通痛点,更可能制约AI向前发展:大模型参数日益增长,而算力供给瓶颈迫不及待,二者形成巨大抵牾。
如何探索更好的大模型算力方案,是业界共同关注的焦点。

近日,环球威信测评MLPerf 公布最新推理测评结果,这是MLPerf首度引入GPT大模型推理测试,参与热度再创记录,收到了来自英伟达、英特尔、谷歌、高通等企业提交的13500多项性能结果。
在MLPerf Inference 3.1中,墨芯人工智能(Moffet AI)S30打算卡在大模型GPT-J(60亿参数)上,单卡、4卡、8卡的算力均得到第一。
这是墨芯在MLPerf上连续第三次卫冕。
此前墨芯曾在MLPerf Inference 2.0与2.1上,连续两届得到第一。
墨芯S30打算卡
墨芯的成绩,为大模型算力方案带来了可行的创新方向。
事实证明:结合AI模型与打算平台的软硬协同创新,能够开释更大的算力潜力。这也再度印证:以稀疏打算为代表的创新技能,将是大模型时期算力发展的关键。
墨芯参加的是MLPerf开放分区,据主理方MLCommons先容,该分区旨在鼓励创新。因此参赛者可以通过软硬协同等办法,探索对算力的提升。
在MLPerf中的GPT-J大模型上,与4nm制程的H100纯硬件加速方案比较,12nm制程的墨芯S30打算卡通过「原创的双稀疏算法+硬件协同」办法,取得了高达1.8倍的上风。
本次测评的GPT-J模型是天生式AI模型,墨芯S30打算卡在8卡、4卡、单卡模式下,性能分别为170.59,91.57,23.28 (Sample/s),达到英伟达H100性能的1.6倍、1.8倍、1.8倍,展现出墨芯产品在AIGC类任务上的能力。
三度夺冠,大模型算力率先「交卷」,软硬协同持续创新——墨芯的产品实力数次经由MLPerf的严格考验,也探索出大模型算力发展的新路径。
稀疏打算——大模型「潜力股」得到市场认可
墨芯接连的精良成绩,紧张得益于基于稀疏化算法的软硬协同设计。
在大模型时期,稀疏打算的主要性不言而喻:AI模型大小与其稀疏化潜力成正比。
也便是说,当模型越大,算法上有更大稀疏的可能性,稀疏打算可加速的幅度也越高。对付一样平常大型措辞模型,稀疏打算可带来数十倍加速。
墨芯独创的双稀疏算法,结合软硬协同设计,使墨芯Antoum®芯片成为环球首款高稀疏倍率AI芯片,支持高达32倍稀疏——这也正是墨芯在本次MLPerf中创新记录的关键。
模型越大,稀疏打算的上风越明显——尤其是在GPT等大模型参数动辄上百亿、千亿的现状下,这使得墨芯的护城河更为稳固。
墨芯的产品实力与稀疏打算的大势所趋,也得到了业界的认可:墨芯商业化进程接连取得主冲要破,助力企业加速AI运用。
就在近日,墨芯正式成为支持Byte MLPerf的供应商之一。
来源:Byte MLPerf网站
项目地址:https://github.com/bytedance/ByteMLPerf/blob/main/README.md
当前,墨芯AI打算平台已能够支持不同参数级别的大模型,包括 BLOOM, OPT, GPT-J,LLaMA,StableDiffusion等。
同时具有高吞吐、低延时、低功耗等特点,缓解算力之困,真正为企业带来「好用」、「用得起」的大模型算力方案。
带来根本性的算力变革,稀疏打算助力大模型发展
墨芯的稀疏打算方案不仅能够缓解当前的算力难题,也为AI的持续发展打开新的空间。
稀疏打算减少了AI模型的打算量,这意味着能让大模型既在参数量上跃升多少个数量级的同时,又不产生过大的打算量,大模型参数增长与算力瓶颈的抵牾有望从根本上得到办理。
同时,由于打算量的减少,大模型的高算力需求、高功耗、高用度等痛点,也一并得到办理,实现「多赢」效果。
墨芯Antoum芯片:环球首款高稀疏倍率AI芯片,支持高达32倍稀疏
连续三届MLPerf的精良成绩,不仅是对墨芯产品实力的证明,也为业界带来新启迪:在稀疏打算等技能的助力下,大模型的发展与运用有望迎来更广阔的施展空间,加速AIGC等运用在各行各业各处着花。
关于MLPerf
MLPerf由图灵奖得主大卫•帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学顶尖学术机构发起成立,是威信性最高、影响力最广的国际AI性能基准测试,以对迅速增长的AI打算需求与性能进行及时的跟踪测评。