首页 » 通讯 » 号称GPU推理速度提高400%腾讯红杉投资的无问芯穹公布首个大年夜模型算力平台|钛媒体AGI_模子_清华年夜学

号称GPU推理速度提高400%腾讯红杉投资的无问芯穹公布首个大年夜模型算力平台|钛媒体AGI_模子_清华年夜学

神尊大人 2025-01-08 22:00:19 0

扫一扫用手机浏览

文章目录 [+]

钛媒体App获悉,3月31日上午,腾讯、百度投资的海内大模型领域AI Infra公司无问芯穹在上海发布无穹Infini-AI大模型开拓与做事平台。

无问芯穹表示,Infini-AI大模型开拓与做事平台包括一站式AI平台,以及兼容infini-megrez、Llama、ChatGLM等多个模型的大模型开拓平台,利用GPU推理和加速技能,供应大模型开拓、演习、运行、运用的完全工具链。

号称GPU推理速度提高400%腾讯红杉投资的无问芯穹公布首个大年夜模型算力平台|钛媒体AGI_模子_清华年夜学 通讯

清华大学电子工程系教授兼系主任,国家自然科学基金杰青、无问芯穹发起人汪玉教授早前表示,“现在大家都在做各种各样的非常厉害的芯片,但是,但若何去把模型更好的支配在这些芯片上,让做运用开拓等领域职员不会花费额外的代价,实在会极大推动大模型研发。
无问芯穹便是想要推动大模型技能举动步伐发展进入各行各业。

无问芯穹创始人、CEO夏立雪透露,大模型做事平台于3月31日起开启免费公测,给所有实名注册的个人和企业用户供应百亿tokens免费配额。
一站式AI平台于4月1日-4月30日限时免费试用。

无问芯穹创始人、CEO夏立雪

据悉,无问芯穹(Infinigence AI)成立于2023年5月,是一家专注于为 AI 2.0时期供应完全办理方案的科技公司。

投融资层面,截至目前,无问芯穹并未公开融资,但工商信息显示,腾讯、百度、红杉中国、启明创投、同歌创投、智谱AI、真格基金、光源成本、绿洲成本、经纬创投、华控电科、北极光创投、金沙江创投、徐汇成本、南山成本等机构均有投资入股无问芯穹。

无问芯穹创始团队来自清华大学电子工程系,致力于成为大模型落地过程中的\公众M×N\"大众中间层,以打造大模型软硬件一体化方案,链接高下游,建立AGI(通用人工智能)时期大模型根本举动步伐。

清华大学电子工程系教授兼系主任、无问芯穹发起人汪玉教授

无问芯穹发起人是汪玉教授。
1982年出生的汪玉,本科、硕士、博士均在清华大学,2007年汪玉选择留校任教,是目前清华大学最年轻的系主任。
同时,清华大学电子工程系也是海内半导体家当的“黄埔军校”,包括燧原科技创始人兼CEO赵立东,前清华大学校长王希勤等人都毕业于该专业。

2016年1月,以汪玉教授为卖力人的深度学习处理器项目,通过清华大学电子信息学院论证并得到支持。
随后,项目团队以知识产权转化入股、创立AI芯片公司深鉴科技,进行家当化运营。
其学生姚颂、单羿是深鉴科技创始成员,投资方包括高榕成本、金沙江创投、三星风投等机构。
2018年,深鉴科技被环球最大的FPGA厂商赛灵思收购,随后赛灵思也被美国芯片巨子AMD公司所收购。
如今的无问芯穹,或属于汪玉的“二次创业”。

无问芯穹联合创始人、CEO夏立雪博士则是汪玉的学生,于2018年在清华大学电子工程系得到工学博士学位,于2013年在清华大学电子工程系得到工学学士学位。
此外,他还于2017年1月至6月赴杜克大学进行为期半年的访问学者。
夏立雪的研究内容为深度学习算法的硬件设计优化,关注层次紧张包括算法层的模型压缩、软件层的算法编译优化、以及面向新兴存储打算元件RRAM的深度学习打算平台体系构造和容错方法研究等。

无问芯穹联合创始人、CTO颜深根是中科院博士,北卡州立大学访问学者,曾任商汤科技数据与打算平台部实行研究总监、北京大学-商汤科技联合实验室副主任,曾带领上百人精良团队帮助商汤开拓包括SenseParrots在内的多个原创AI系统,建立了靠近2万片GPU的超大规模高性能AI打算平台。

无问芯穹联合创始人兼首席科学家戴国浩,目前是上海交通大学长聘教轨副教授,CCC(清源研究院定制打算中央)Co-PI,DAI Group(人工智能设计自动化创新实验室)卖力人。
戴国浩同为清华校友,分别于2014年和2019年取得清华电子工程系工学学士和博士学位。
汪玉为其博士毕业论文辅导老师。
其紧张研究方向是大规模稀疏图打算、异构硬件打算、新兴硬件架构等,毕业后,他曾为汪玉研究团队的助理研究员,后于2022年加入上海交大任副教授,方向为稀疏打算、AI 电路与系统等。

2023年,以ChatGPT为代表的 AI 大模型风靡环球,AI 2.0时期正在到来,而算力演习本钱高、难以统一高效支配算力举动步伐等,依然是大模型发展制约成分。

汪玉曾表示,大模型的呈现给 AI 、自动驾驶、科学打算以及机器人等领域都带来了显著的促进浸染,但当下,大模型落地面临诸多寻衅,算力供需平衡、大模型运用降本须要软硬一体协同优化的AI生态。

“从个人的角度来看,当前大模型紧张面临三个方面的寻衅:第一,大模型面临的算力限定;第二,当前推理和包括演习在内的成本相当高,这是创业者和大公司普遍面临的寻衅;第三,面对独特的算法和多元硬件的生态,如何更有效地推动这个生态的发展,也是当前面临的一个主要寻衅。
”汪玉表示。

汪玉曾透露,演习GPT-4时须要利用到2.4万张A100 GPU。
而以不同类型的模型和用户数来打算(推理阶段),在自建算力集群的情形下,每天的用度可能达到690万。
如果利用现有的API运营,用度可能更高。
而假设GPT-4 Turbo每天要为10亿生动用户供应做事,每年的算力本钱可能超过2000亿元。

夏立雪博士曾表示,算力不敷仍旧是制约通用人工智能发展的主要成分。
GPU Utils的一份数据显示,环球目前 H100 等效算力的供给缺口达到 43 万张。
在办理算力不敷的问题上,除了抢购和囤积英伟达,更多的方案正在浮出水面。

去年7月的一场演讲中,汪玉表示,无问芯穹是面向大模型的MxN软硬件联合优化中间层的平台,利用其平台举动步伐,推理本钱、微调本钱、人力本钱均有望降落10倍以上,同时文本长度也会增加10倍以上。

大略来说,无问芯穹做的任务属于AI infra技能,M层是大模型,N层是A100/H800等国内外做事器硬件,通过算子优化、自动编译、不同芯片耦合等技能一键支配模型。

“在芯片制造方面,我们面临着算力密度的限定。
目前大家正在谈论的是1Tops/Watt的设计,即每瓦特能够供应1T次运算(人脑的功耗大约为20瓦)。
未来在某些任务上,我们须要硬件去达到每瓦特1000Tops/Watt的指标。
那么如何通过芯片实现1Tops/Watt,乃至几百T或几千Tops/Watt呢?过去几年中,打算芯片通过尺寸微缩的红利实现了各种各样的专用途理器。
现在,我们开始关注近存储打算和存内打算,由于数据搬运比较数据打算更耗电,搬运数据(带宽)变得更加繁芜。
进一步地,我们也在研究是否可以不该用硅基芯片、微电子,而是采取光电子来制造芯片,这是业内关注的一系列研究方向。
另一方面,大模型的发展须要极高的互联带宽,根据实验室理论打算,GPT-3所需的互联带宽为1380TB/s,而一张英伟达的卡自带的600GB/s互联带宽与这一需求之间存在显著差距。
这也是为什么须要将许多这样的卡连接在一起,才能完成对这一模型的演习。
目前,打算性能的提升速率超过了带宽的增速,尤其在多元互联的运用处景中,如何有效地将机器连接起来是一项相称繁芜的任务。
我们也在思考,创建一种相对统一的中间层,以支持长文本、实现更高的性价比,同时实现一键支配。
并且在这个中间层中,纳入一些工具,以帮忙算法和运用的开拓,比如整合算法压缩、算子优化以及自动编译等功能。
通过这样的中间层,有望更好地匹配M个大型模型和N个硬件,从而实现更加灵巧的支配。
”汪玉曾表示。

所谓AI Infra,是指构建 AI 所需的根本举动步伐,涵盖连接算力和运用的 AI 中间层根本举动步伐,包括数据准备、模型演习、模型支配和运用整合等环节。
它不仅与算力干系,还包括大数据层面的优化。
AI Infra 包括 AI 根本框架技能,涉及大模型演习、支配领域的各种底层举动步伐,以及根本软件栈等核心组成部分,紧张目标是优化算力算法、促进运用落地。
而AI Infra 在 AI 行业中扮演着连接硬件、软件和运用的关键角色,促进了 AI 技能的发展和运用。

2023年11月,无问芯穹联合清华大学、上海交通大学团队在Arxiv上揭橥了一篇论文,提出了一种新方法 FlashDecoding++,通过异步方法实现把稳力打算的真正并行,可以将GPU推理速率提高2倍-4倍(200%-400%),在英伟达A100显卡上的推理均匀加速37%,以及同时支持英伟达和 AMD 的GPU产品。

其余,无问芯穹还自主研发70亿参数大措辞模型“无问天权”——infini-megrez-7b,支持英伟达和AMD的GPU,以及无问芯穹自研高效推理引擎等。

据称,目前无穹Infini-AI平台已支持了Baichuan2、ChatGLM3、Llama2、Qwen系列等共20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种打算卡,支持多模型与多芯片之间的软硬件联合优化和统一支配。

针对这次公布的一站式AI平台和大模型做事平台,钛媒体App也进行了测试和体验。

我们不雅观察到,从推理侧来说,大模型做事平台的chat速率还是比较快的,同时也支持多个大模型、多款做事器同时进行推理运用。
但截至目前,钛媒体App测试的基于无穹Infini-AI平台的infini-megrez-7b和ChatGLM3模型,均不能供应汪玉教授准确的个人信息反馈,解释其知识体系无法实时更新,数据和模型能力仍须要加强。

钛媒体App还获悉,无问芯穹还宣告将与智谱 AI 互助构建大模型训推万卡集群,并且与摩尔线程就MTT S4000千卡集群达成协议。

戴国浩透露,其团队于今年1月初研发出环球首个基于FPGA(现场可编程逻辑门阵列)的大模型处理器,通过大模型高效压缩的软硬件协同优化技能,使得LLaMA2-7B模型的FPGA支配本钱从4块卡减少至1块卡,并且性价比与能效比均高于同等工艺GPU,即展示“一张卡跑大模型”。
戴国浩称其为无穹LPU,估量将于2025年发布。
(注:此前第四范式也公布了类似的FPGA的模型算力加速技能)

圆桌会议上,鸿博股份副总裁、英博数科科技有限公司CEO周韡韡博士表示,“若算力不自由,则数据无意义。
关于AGI,关于未来,我们有太多美好的憧憬,但眼下最实在的是先让可知足通用型LLM的同构大型智算集群跑起来,再让海内团队在复现和追赶天下水平的同时,兼顾繁荣国产自主可控AGI生态发展。

(本文首发钛媒体App,作者|林志佳)

相关文章

深度解析芯片端接电阻校准_电阻_阻抗

(1)PCB板上阻抗匹配(2)片上阻抗匹配在PCB上靠近芯片的位置直接端接阻抗匹配和片上阻抗匹配,可以达到很高的精度和稳定性,但是...

通讯 2025-01-11 阅读0 评论0