首页 » 通讯 » 【国盛计算机】国产AI算力生态一览_芯片_生态

【国盛计算机】国产AI算力生态一览_芯片_生态

少女玫瑰心 2024-11-09 10:49:15 0

扫一扫用手机浏览

文章目录 [+]

ChatGPT大模型打算量高速扩展,算力需求陡增。
1)以ChatGPT为代表的大模型参数量、数据量高度扩展,GPT-3模型参数量高达1750亿,大模型演习须要强大算力支撑。
2)当前Google逐日搜索量已达到35亿,我们认为Chatgpt日活提升空间广阔,算力需求有望持续开释。
3)未来多模态趋势下,更广的数据形态、更多的运用处景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩展时期。

人工智能芯片铸就算力底座,龙头破局加速追赶。
华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局,产品算力不断提升,部分性能靠近国际前辈水平:

【国盛计算机】国产AI算力生态一览_芯片_生态 【国盛计算机】国产AI算力生态一览_芯片_生态 通讯

华为昇腾910整数精度的算力达到640 TOPS,半精度的算力达到320 TFLOPS,可对标国际行业领先产品,其Atlas 300T演习卡紧张运用处景包括运营商、互联网、金融等须要AI演习以及高性能打算的领域;海光“深算一号”DCU内置60-64个打算单元,最多4096个运算核心,具有较强的并行打算能力和较高的能效比,现已实现规模发卖;寒武纪思元370芯片采取7nm制程工艺和chiplet技能,集成390亿个晶体管,最大算力高达256TOPS(INT8);百度昆仑芯2代AI芯片通用打算核心算力提升2-3倍,半精度达到128 TFLOPS,可支持演习和推理;景嘉微GPU可广泛运用于PC、做事器、图形事情站等设备,知足地理信息系统、图像匹配、旗子暗记处理、机载车载舰载显控等显示打算需求。

软硬生态构筑壁垒,关注海光、昇腾两大算力领军生态。
考虑到除了GPU本身的技能壁垒外,软件生态也成为强化GPU厂商竞争力的主要樊篱,建议关注产品性能突出、生态完善、下贱运用丰富的海光和鲲鹏及其互助伙伴:

【国盛计算机】国产AI算力生态一览_芯片_生态 【国盛计算机】国产AI算力生态一览_芯片_生态 通讯
(图片来自网络侵删)
海光生态:海光DCU协处理器能够较好地适配NVIDIA的CUDA生态,减轻开拓和迁移难度,也降落了推广压力;构建较为完善的AI工具链生态,可以最大限度利用已有的成熟AI算法和框架;CPU与GPGPU也得到家当链各环主流厂商支持,建议关注的海光信息、中科曙光等。
昇腾生态:昇腾打算家当生态基于昇腾系列处理器和根本软件,构建全栈AI打算根本举动步伐、行业运用及做事。
在软硬件体系方面,Atlas硬件、MindSpore框架以及AI开拓平台构建起完备的互助体系;在整机方面,神州数码与拓维信息作为华为昇腾算力9家整机互助伙伴,在昇腾算力领域率先落子;在行业运用方面,22年北明软件加入昇腾万里伙伴操持,明确在金融、互联网、电力等领域的全方位互助意向,昇腾打算家当生态日渐完善。
建议关注神州数码、拓维信息、常山北明等。

风险提示:AI技能迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。

报告正文

01

ChatGPT大模型打算量高速扩展,算力需求陡增

ChatGPT以大模型为根本,在翻译、问答、内容天生等领域表现不俗。
1)ChatGPT是天生式AI的一种形式,Gartner将其作为《2022年度主要计策技能趋势》的第一位。
2)根据腾讯研究院研究,当前的人工智能大多是针对特定的场景运用进行演习,天生的模型难以迁移到其他运用,属于“小模型”的范畴。
全体过程不仅须要大量的手工调参,还须要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且本钱较高。
而ChatGPT背后的支撑是人工智能大模型。
大模型常日是在无标注的大数据集上,采取自监督学习的方法进行演习。
之后,在其他场景的运用中,开拓者只须要对模型进行微调,或采取少量数据进行二次演习,就可以知足新运用处景的须要。
这意味着,对大模型的改进可以让所有的下贱小模型受益,大幅提升人工智能的适用场景和研发效率。
3)因此大模型成为业界重点投入的方向,OpenAI、谷歌、脸书、微软,海内的百度、阿里、腾讯、华为和智源研究院等纷纭推出超大模型。
特殊是OpenAI GPT3大模型在翻译、问答、内容天生等领域的不俗表现,让业界看到了达成通用人工智能的希望。
当前ChatGPT的版本为GPT3.5,是在GPT3之上的调优,能力进一步增强。

以大模型为根本,参数量、数据量高度扩展,算力需求陡增。
在大模型的框架下,每一代GPT模型的参数量均高速扩展;同时,预演习的数据量需求亦快速提升。
我们认为,ChatGPT的快速渗透、落地运用,也将大幅提振算力需求。

Chatgpt月活过亿,算力成为衡量投入的关键指标。
根据Similarweb的数据,2023年1月,Chatgpt累计用户超1亿,创下了互联网最快破亿运用的记录,超过了之前TikTok9个月破亿的速率。

1)访问阶段:初始投入近十亿美元,单日电费数万美元。

英伟达A100:根据OneFlow宣布,目前,NVIDIA A100是AWS最具本钱效益的GPU选择。
英伟达DGX A100做事器:单机搭载8片A100 GPU,AI算力性能约为5 PetaFLOP/s,单机最大功率约为6.5kw,售价约为19.9万美元/台。
逐日咨询量:根据Similarweb数据,截至2023年1月尾,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/2/3这一周吸引的逐日访客数量高达2500万。
假设以目前的稳定状态,逐日每用户提问约10个问题,则逐日约有2.5亿次咨询量。
A100运行小时:假设每个问题均匀30字,单个词在A100 GPU上约花费350ms,则一天共需花费729,167个A100 GPU运行小时。
A100需求量:对应每天须要729,167/24=30,382片英伟达A100 GPU同时打算,才可知足当前ChatGPT的访问量。
初始算力投入:以前述英伟达DGX A100为根本,须要30,382/8=3,798台做事器,对应3,798/7=542个机柜。
则,为知足ChatGPT当前千万级用户的咨询量,初始算力投入本钱约为542140=7.59亿美元。
每月电费:用电量而言,54245.5kw24h=591,864kwh/日。
参考Hashrate Index统计,我们假设美国均匀工业电价约为0.08美元/kwh。
则,逐日电费约为591,8640.08=4.7万美元/日。

其余,考虑Google逐日搜索量已达到35亿,我们认为Chatgpt日活提升空间广阔,算力需求有望持续开释。

2)演习阶段:公有云下,单次演习约为百万至千万美元

每个token的演习本钱常日约为6N(而推理本钱约为2N),个中N是LLM的参数数量;假设在演习过程中,模型的FLOPS利用率为46.2%,与在TPU v4芯片上进行演习的PaLM模型(拥有5400亿参数)同等。
根据OneFlow估算,GPT-3演习一次的本钱约为139.8万美元;对付一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM),采取同样的打算公式,可得出,演习本钱介于200万美元至1200万美元之间。

目前笔墨交互仅为Chatgpt以及AIGC运用处景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变革。
而更广的数据形态、更多的运用处景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩展时期,做事器、芯片、IDC、光通信等厂商有望核心受益。

02

人工智能芯片铸就算力底座,龙头破局加速追赶

AI芯片优化机器学习和深度学习运算,较传统CPU存在技能变革。
在CPU的根本上,AI芯片优化了在机器学习和深度学习中常用的运算,在并行打算、低精度打算、内存优化三个方面存在技能变革,与CPU发挥不同的功能,共同知足新时期打算需求。

根据技能架构分类,AI芯片包括图形处理单元(GPU),现场可编程门阵列(FPGA),以及特定运用集成电路(ASICs)。
1)GPU最初是为处理运用并行打算的图像而设计的。
2012年起,GPU开始越来越多地被用于演习AI系统;到2017年,GPU已成为主导的AI芯片。
根据海光信息招股解释书,目前GPGPU依旧是主流架构选择,占比达到90%。
2)然而,GPU仍旧采取了通用打算的设计,FPGA和ASIC与之相对,在演习和推理方面变得更加突出。
ASIC包括为特定算法定制的硬蚀刻的线路,由于ASIC对特定的算法做了优化,其常日比FPGA有着更高的效能和速率;FPGA的逻辑块使得其可以在制造后由程序员重新配置、适应特定的算法,比ASIC有着更高的通用性可以被二次编程运用与改造。

根据承担的任务分类,AI芯片包括演习芯片和推理芯片。
演习芯片通过大量标记或未标记的大数据来学习演习、搭建神经网络模型须要更强的算力、也每每带来更高的功耗;后者则以演习好的模型为原本推理出结论。
根据SCET的测算,演习芯片和推理芯片在效能和速率上比同等耗能的CPU有着10~1000倍的提升。

华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局,产品算力不断提升,部分性能靠近国际前辈水平:

华为昇腾(演习+推理):1)推理卡:昇腾310芯片为华为首款全栈全场景AI芯片,功耗仅为8W,在范例配置下可以输出整数精度(INT8)达到16 TOPS,半精度(FP16)算力达到8 TOPS,其Atlas 300推理卡被广泛运用于聪慧城市、聪慧交通、聪慧金融等场景。
2)演习卡:昇腾910功耗310W,整数精度(INT8)的算力达到640 TOPS,半精度(FP16)的算力达到320 TFLOPS,可对标国际行业领先产品,其Atlas 300T演习卡紧张运用处景包括运营商、互联网、金融等须要AI演习以及高性能打算的领域。

海光信息(演习):公司紧张产品包括通用途理器(CPU)和海光协处理器(DCU)。
海光DCU对应海光8000系列,为海光自行研发设计的AI演习芯片。
公司于2018年10月启动了“深算一号”的产品设计,现已实现规模发卖。
该芯片内置60-64个打算单元,最多4096个运算核心,具有较强的并行打算能力和较高的能效比,适用于向量打算和矩阵打算等打算密集型运用。
海光DCU兼容“类CUDA”(ROCm)的环境,软硬件生态丰富,可广泛运用于大数据处理、人工智能、商业打算等打算密集类运用领域。
2020年1月,公司启动了第二代DCU“深算二号”的产品研发事情。

寒武纪(演习+推理):1)训推一体:思元370芯片是寒武纪公司推出的一款训推一体的AI芯片,采取7nm制程工艺和chiplet技能,集成390亿个晶体管,最大算力高达256TOPS(INT8),是上一代产品思元270算力的2倍,内存带宽的3倍。
2)推理卡:寒武纪的思元270是一款推理芯片,可以处理非稀疏的AI模型,峰值性能达到128TOPS(INT8)。
思元270还支持包括INT4和INT16的多种精度运算,以及浮点和稠浊精度运算。
它适用于多种人工智能运用,包括视觉、语音、自然措辞处理和机器学习。
此外,思元290芯片是寒武纪的首款AI演习芯片,集成460亿个晶体管,HBM2内存则供应了AI演习中所需的高内存带宽,vMLU技能则帮助客户实现了云端虚拟化及资源隔离。

百度昆仑芯(演习+推理):1)推理卡:昆仑芯一代和二代AI芯片分别名为K系列和R系列。
个中,昆仑芯1代AI芯片为云端推理芯片,支持通用AI算法。
该芯片算力强大,整数精度(INT8)达到256 TOPS,半精度(FP16)达到64 TFLOPS,可用于云数据中央和智能边缘,目前已在百度搜索引擎、小度等业务中支配数万片,赋能互联网、工业制造、聪慧金融、聪慧交通等领域。
2)训推一体:比较1代产品,昆仑芯2代AI芯片通用打算核心算力提升2-3倍,半精度(FP16)达到128 TFLOPS,可支持演习和推理,为数据中央的高性能打算供应强劲AI算力,支持虚拟化、芯片间互联和视频编解码。

景嘉微(推理):景嘉微是国产高性能GPU领域的领军企业。
公司从2014年开始研发海内首款高可靠、低功耗GPU芯片JM5400,到2018年研制成功第二代高可靠、高性能GPU JM7200并得到市场广泛运用,再到2021年底完成第三代产品JH920的迭代升级。
JH920是景嘉微的第三代高性能GPU,性能比较前两代有了大幅度提升,紧张运用于中高端图形显示、通用打算、嵌入式等领域。
JH920全面支持国产CPU、国产操作系统和国产固件,可广泛运用于PC、做事器、图形事情站等设备,知足地理信息系统、图像匹配、旗子暗记处理、机载车载舰载显控等显示打算需求。

03

人工智能芯片铸就算力底座,龙头破局加速追赶

3.1软件强化GPU竞争壁垒,完善生态成为发展关键

英伟达CUDA生态强化芯片高壁垒。
CUDA是2006年由NVIDIA推出的通用并行打算架构,包含了运用于NVIDIA GPU的指令集(ISA)以及GPU内部并行打算引擎。
CUDA供应了GPU编程的大略单纯接口,程序员可以基于CUDA编译基于GPU的运用程序,利用GPU的并行打算能力更高效的办理繁芜打算难题。
根据宽泛科技公众号,Cuda推出之前,给GPU编程须要用机器码深入到显卡内核才能完成;Nvidia推出了Cuda往后,把繁芜的显卡编程包装成了大略的接口,造福了广大开拓职员,因此主流的深度学习框架多基于CUDA进行GPU并行加速。
据Jon Peddie Research数据,截止至2022年四季度,Nvidia以82%的市场份额保持着环球领先的独立GPU供应商的地位,Intel和AMD占比均达到9%。

软件生态成为GPU厂商的主要樊篱。
Nvidia的GPU目前在环球依旧是云端人工智能加速的主流办理方案,究其根本,其他AI芯片公司在生态上难以与Nvidia CUDA生态做竞争:一方面取决于CUDA完全编程和AI工具链,这些完全的工具链须要永劫光积累;另一方面取决于其广泛的运用程序和互助伙伴。

1)AI工具链生态完善有利于芯片推广。
任何新的打算平台推广的低级阶段,都须要开拓职员将原有运用程序重新移植到新平台,因此开拓职员须要前辈的工具链和开拓环境;而运用程序扩展后,在数据中央级别也会须要更多工具来进行支持。
以CUDA为例,NVIDIA依赖CUDA平台,经由长期积累形成完备的工具链,同时与第三方进行互助,为开拓者供应打造了完备的生态组件,而生态组件和硬件深度绑定,也更有利于NVIDIA芯片的拓展。

2)运用程序和互助伙伴影响着芯片的落地。
构建在芯片之上的软件生态深刻影响着芯片的可用性,芯片上层运用程序与互助伙伴,直接决定了芯片是否真正落地和值得投资。
Nvidia便不断向全新的打算领域发起攻势,打算领域从云打算、医疗,一起扩展到自动驾驶、机器人、措辞类大模型,乃至包括NASA火星上岸操持。

ROCm对标CUDA,在源码级别上对CUDA程序的支持。
2015年AMD公司为了对标CUDA生态而开拓的一套用于HPC和超大规模GPU打算供应的开源软件开拓平台ROCm,目标是建立可替代CUDA的生态,并在源码级别上对CUDA程序的支持。
AMD的生态虽然基于开源生态OpenCL开拓,但AMD也制作了HIP的编程模式,险些通盘拷贝CUDA API,2016年AMD曾展示了从CUDA向HIP移植深度学习框架CAFFE,99.6%都是自动移植完成。

借鉴AMD发展思路,短期内国产GPU若兼容CUDA利于推广,发展自有的核心技能为长期策略。
1)短期来看,国产GPU兼容CUDA等国际生态可以借助英伟达打造好的软件生态,减轻开拓和迁移难度,也降落了推广压力。
2)长期来看,由于CUDA架构会做出部分微调,国产GPU如果完备基于CUDA生态进行开拓,硬件更新将绑定英伟达的开拓进程,因此,完善自身工具链与下贱运用,构建公司生态壁垒,发展自有的核心技能应为长期策略。

3.2海光生态:兼容国际主流打算生态,下贱运用丰富

海光DCU产品兼容国际主流生态,有利于快速迁移。
跨平台迁移过程中算子缺失落和精度低落,会导致迁移成功率低。
海光DCU协处理器全面兼容ROCm GPU打算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台,ROCm也被称为“类CUDA”。
因此,海光DCU协处理器能够较好地适配、适应NVIDIA商业打算软件和人工智能软件,软硬件生态丰富,可广泛运用于大数据处理、人工智能、商业打算等打算密集类运用领域,紧张支配在做事器集群或数据中央,为运用程序供应高性能、高能效比的算力,支撑高繁芜度和高吞吐量的数据处理任务。

完善AI工具链生态,最大限度利用已有的成熟AI算法和框架。
1)供应统一底层硬件驱动平台,支持常见打算框架、库和编程模型;2)供应层次化软件栈,适配不同API接口和编译器,可最大限度利用已有的成熟AI算法和框架。

与CPU形成协同效应,CPU+GPGPU异构运算架构提高灵巧性。
1)运算协处理器存在多条技能路线,包括GPGPU、ASIC、FPGA等。
个中GPGPU的代表企业包括NVIDIA 和AMD;利用ASIC技能,许多大公司都研发了协处理器产品,包括Intel的Phi和NNP、Google的TPU、华为昇腾、寒武纪思元等;基于Intel、Xilinx的FPGA,涌现过很多专用协处理器产品。
2)综合考虑性能、能效比和编程灵巧性等方面的成分,GPGPU在协处理器运用领域具有非常明显的上风,霸占人工智能 90%以上的市场份额,在智能工厂、无人驾驶、聪慧城市等领域具有广泛的市场空间。
3)海光采取GPGPU路线,CPU+GPGPU 的异构运算架构可以让系统具有更大灵巧性,知足繁芜场景的不同需求,能够较大幅度地提升单独利用CPU或GPGPU的任务实行效率;CPU和GPGPU之间还可以通过内存共享等办法进行数据交互,发挥异构打算的上风。

CPU与GPGPU得到家当链各环主流厂商支持,互助厂商不断增多。
目前公司已具备完善的家当链生态,在操作系统、云打算、数据库、大数据、人工智能、商用打算软件等各环节支持主流厂商产品与做事。

中科曙光:截止至2022年3季报,中科曙光持有海光信息27.96%股份。
中科曙光为国产做事器办理方案龙头企业,其做事器办理方案成熟,助力海光拓展行业市场。
其他OEM客户支持:海光产品已经得到新华三、遐想等浩瀚OEM客户支持,形成全面完备的整机实例,推进后续客户对公司产品的购买。
支持主流BIOS:目前公司产品支持主流BIOS厂商,如百敖、昆仑、insyde等。

加速以海光为核心的自主化生态,成立“光合组织”,面向家当链生态培植:

2020年4月,公司成立“海光家当生态互助组织”,简称“光合组织”,旨在环绕海内自主通用打算平台,联合家当链高下游企业、高校、科研院所、行业企业等干系创新力量,实现协同技能攻关,共同打造安全、好用、开放的产品与办理方案,并开展测试认证、技能培训、方案孵化、运用示范、推广互换等系列活动,促进互助组织成员的共同发展,共建原谅、繁荣的信息技能生态系统。
光合组织推进成果颇丰。
目前,光合组织已有成员1000+,适配认证厂商500+,产品适配认证1000+,成立区域分会10个,适配中央15个。

根植海内市场,海量需求将持续积淀Know-how,未来将拓展更多下贱领域。
目前,海光DCU紧张面向大数据处理、商业打算等打算密集型运用领域以及人工智能、泛人工智能运用领域。
比较国际芯片领先企业,公司根植于中国本土市场,更理解中国客户的需求,能够供应更为安全可控的产品和更为全面、细致的办理方案和售后做事,具有本土化竞争上风。
随着公司产品在上述领域中示范效应的逐步显现,以及公司市场推广力度的不断加强,公司产品将会拓展至更多领域,霸占更大的市场份额。

3.2昇腾生态:搭建全栈AI打算,生态伙伴深入

昇腾打算家当生态是基于昇腾系列处理器和根本软件构建的全栈AI打算根本举动步伐、行业运用及做事,详细可以分为昇腾打算软硬件体系、互助伙伴、行业运用三层。

1)硬件体系:Atlas系列硬件产品,比如嵌入式模组、板卡、小站、做事器、集群等。
Atlas互助伙伴包括神州数码、湘江鲲鹏(拓维信息)、安擎、宝德、华鲲振宇(长虹)、长江打算、黄河科技、新华三、百信、清华同方、广电五舟等。

神州数码:2021年作为华为昇腾算力9家整机互助伙伴之一,公司在昇腾算力领域率先落子。
根据公司官方"大众年夜众号,神州鲲泰KunTai A722推理型做事器以“鲲鹏+昇腾”为核心,在2U紧凑空间内,可供应128个处理核心的算力,同时最大可支持8张华为Atlas 300推理卡,供应256GB推理缓存,以及最大 704 TOPS INT8 的AI算力。
拓维信息:2021年公司成为昇腾首批整机互助伙伴,2022年4月兆瀚推理做事器RA2300-A系列是基于昇腾处理器开拓的AI推理做事器,完成与华为Atlas 300I Pro推理卡和Atlas 300V Pro视频解析卡的兼容性测试,最多可搭载8张Atlas 300V Pro 视频解析卡或Atlas 300I Pro 推理卡。

2)根本软件:

异构打算架构CANN以及对应的驱动、运行时、加速库、编译器、调试调优工具、开拓工具链MindStudio和各种运维管理工具等,开放给广大的开拓者和客户;AI打算框架,包括开源的MindSpore,以及各种业界盛行的框架,作为生态的有机组成部分:MindSpore互助伙伴包括鹏城实验室、深圳湾实验室、北京大学、清华大学、哈工大、斗鱼等。
AI开拓平台ModelArts、HiAI Service等,互助伙伴包括第四范式、依瞳科技、中科弘云等。

3)行业运用伙伴:广大互助伙伴与华为一起,已经推出了浩瀚AI办理方案,在运营商、金融、互联网、能源、交通、教诲、医疗等各个行业得到广泛运用,并在实践中创造了很好的行业代价。

常山北明:根据全资子公司北明软件官方公众年夜众号,2021年北明软件与南京江北新区正式签约,助力华为与江北新区打造南京昇腾人工智能打算中央;2022年4月,北明软件正式加入昇腾万里伙伴操持,成为昇腾运用软件伙伴,明确在金融、互联网、电力等领域的全方位互助意向。
在华为的引领与华为生态伙伴的协同下,昇腾行业生态日渐完善。

04

投资标的

以ChatGPT为代表的大模型时期来临,语音、图片、视频等多模态AI技能快速崛起,更广的数据形态、更多的运用处景、更深的用户体验,算力需求陡增。
而AI芯片作为算力的核心,目前被外洋厂商霸占大部分,而海内华为昇腾、海光信息、寒武纪、百度等龙头正在加速布局。
考虑到除了GPU本身的技能壁垒外,软件生态也成为强化GPU厂商竞争力的主要樊篱,建议关注产品性能突出、生态完善、下贱运用丰富的海光和鲲鹏及其互助伙伴:1)海光生态中的海光信息、中科曙光等;2)昇腾生态中的神州数码、拓维信息、常山北明等。

05

风险提示

AI技能迭代不及预期风险:若AI技能迭代不及预期,NLP技能理解人类意图水平未能取得打破,则对家当链干系公司会造成一定不利影响。

经济下行超预期风险:若宏不雅观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和家当链生产意愿,对全体行业将会造成不利影响,NLP技能运用落地将会受限。

行业竞争加剧风险:若干系企业加快技能迭代和运用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。

标签:

相关文章