【国盛计算机】国产AI算力生态一览_芯片_生态

文章目录 [+]

ChatGPT大模型打算量高速扩展，算力需求陡增。
1）以ChatGPT为代表的大模型参数量、数据量高度扩展，GPT-3模型参数量高达1750亿，大模型演习须要强大算力支撑。
2）当前Google逐日搜索量已达到35亿，我们认为Chatgpt日活提升空间广阔，算力需求有望持续开释。
3）未来多模态趋势下，更广的数据形态、更多的运用处景、更深的用户体验，亦将大幅提升支撑人工智能的算力需求，算力或迎来高速扩展时期。

人工智能芯片铸就算力底座，龙头破局加速追赶。
华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局，产品算力不断提升，部分性能靠近国际前辈水平：

【国盛计算机】国产AI算力生态一览_芯片_生态【国盛计算机】国产AI算力生态一览_芯片_生态通讯

华为昇腾910整数精度的算力达到640 TOPS，半精度的算力达到320 TFLOPS，可对标国际行业领先产品，其Atlas 300T演习卡紧张运用处景包括运营商、互联网、金融等须要AI演习以及高性能打算的领域；海光“深算一号”DCU内置60-64个打算单元，最多4096个运算核心，具有较强的并行打算能力和较高的能效比，现已实现规模发卖；寒武纪思元370芯片采取7nm制程工艺和chiplet技能，集成390亿个晶体管，最大算力高达256TOPS(INT8)；百度昆仑芯2代AI芯片通用打算核心算力提升2-3倍，半精度达到128 TFLOPS，可支持演习和推理；景嘉微GPU可广泛运用于PC、做事器、图形事情站等设备，知足地理信息系统、图像匹配、旗子暗记处理、机载车载舰载显控等显示打算需求。

软硬生态构筑壁垒，关注海光、昇腾两大算力领军生态。
考虑到除了GPU本身的技能壁垒外，软件生态也成为强化GPU厂商竞争力的主要樊篱，建议关注产品性能突出、生态完善、下贱运用丰富的海光和鲲鹏及其互助伙伴：

【国盛计算机】国产AI算力生态一览_芯片_生态【国盛计算机】国产AI算力生态一览_芯片_生态通讯

（图片来自网络侵删）

海光生态：海光DCU协处理器能够较好地适配NVIDIA的CUDA生态，减轻开拓和迁移难度，也降落了推广压力；构建较为完善的AI工具链生态，可以最大限度利用已有的成熟AI算法和框架；CPU与GPGPU也得到家当链各环主流厂商支持，建议关注的海光信息、中科曙光等。
昇腾生态：昇腾打算家当生态基于昇腾系列处理器和根本软件，构建全栈AI打算根本举动步伐、行业运用及做事。
在软硬件体系方面，Atlas硬件、MindSpore框架以及AI开拓平台构建起完备的互助体系；在整机方面，神州数码与拓维信息作为华为昇腾算力9家整机互助伙伴，在昇腾算力领域率先落子；在行业运用方面，22年北明软件加入昇腾万里伙伴操持，明确在金融、互联网、电力等领域的全方位互助意向，昇腾打算家当生态日渐完善。
建议关注神州数码、拓维信息、常山北明等。

风险提示：AI技能迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。

报告正文

ChatGPT大模型打算量高速扩展，算力需求陡增

ChatGPT以大模型为根本，在翻译、问答、内容天生等领域表现不俗。
1）ChatGPT是天生式AI的一种形式，Gartner将其作为《2022年度主要计策技能趋势》的第一位。
2）根据腾讯研究院研究，当前的人工智能大多是针对特定的场景运用进行演习，天生的模型难以迁移到其他运用，属于“小模型”的范畴。
全体过程不仅须要大量的手工调参，还须要给机器喂养海量的标注数据，这拉低了人工智能的研发效率，且本钱较高。
而ChatGPT背后的支撑是人工智能大模型。
大模型常日是在无标注的大数据集上，采取自监督学习的方法进行演习。
之后，在其他场景的运用中，开拓者只须要对模型进行微调，或采取少量数据进行二次演习，就可以知足新运用处景的须要。
这意味着，对大模型的改进可以让所有的下贱小模型受益，大幅提升人工智能的适用场景和研发效率。
3）因此大模型成为业界重点投入的方向，OpenAI、谷歌、脸书、微软，海内的百度、阿里、腾讯、华为和智源研究院等纷纭推出超大模型。
特殊是OpenAI GPT3大模型在翻译、问答、内容天生等领域的不俗表现，让业界看到了达成通用人工智能的希望。
当前ChatGPT的版本为GPT3.5，是在GPT3之上的调优，能力进一步增强。

以大模型为根本，参数量、数据量高度扩展，算力需求陡增。
在大模型的框架下，每一代GPT模型的参数量均高速扩展；同时，预演习的数据量需求亦快速提升。
我们认为，ChatGPT的快速渗透、落地运用，也将大幅提振算力需求。

Chatgpt月活过亿，算力成为衡量投入的关键指标。
根据Similarweb的数据，2023年1月，Chatgpt累计用户超1亿，创下了互联网最快破亿运用的记录，超过了之前TikTok9个月破亿的速率。

1）访问阶段：初始投入近十亿美元，单日电费数万美元。

英伟达A100：根据OneFlow宣布，目前，NVIDIA A100是AWS最具本钱效益的GPU选择。
英伟达DGX A100做事器：单机搭载8片A100 GPU，AI算力性能约为5 PetaFLOP/s，单机最大功率约为6.5kw，售价约为19.9万美元/台。
逐日咨询量：根据Similarweb数据，截至2023年1月尾，chat.openai.com网站（即ChatGPT官网）在2023/1/27-2023/2/3这一周吸引的逐日访客数量高达2500万。
假设以目前的稳定状态，逐日每用户提问约10个问题，则逐日约有2.5亿次咨询量。
A100运行小时：假设每个问题均匀30字，单个词在A100 GPU上约花费350ms，则一天共需花费729,167个A100 GPU运行小时。
A100需求量：对应每天须要729,167/24=30,382片英伟达A100 GPU同时打算，才可知足当前ChatGPT的访问量。
初始算力投入：以前述英伟达DGX A100为根本，须要30,382/8=3,798台做事器，对应3,798/7=542个机柜。
则，为知足ChatGPT当前千万级用户的咨询量，初始算力投入本钱约为542140=7.59亿美元。
每月电费：用电量而言，54245.5kw24h=591,864kwh/日。
参考Hashrate Index统计，我们假设美国均匀工业电价约为0.08美元/kwh。
则，逐日电费约为591,8640.08=4.7万美元/日。

其余，考虑Google逐日搜索量已达到35亿，我们认为Chatgpt日活提升空间广阔，算力需求有望持续开释。

2）演习阶段：公有云下，单次演习约为百万至千万美元

每个token的演习本钱常日约为6N（而推理本钱约为2N），个中N是LLM的参数数量；假设在演习过程中，模型的FLOPS利用率为46.2%，与在TPU v4芯片上进行演习的PaLM模型（拥有5400亿参数）同等。
根据OneFlow估算，GPT-3演习一次的本钱约为139.8万美元；对付一些更大的LLM模型（如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM），采取同样的打算公式，可得出，演习本钱介于200万美元至1200万美元之间。

目前笔墨交互仅为Chatgpt以及AIGC运用处景的冰山一角，语音、图片、视频等多形式的输入输出，或将为内容创作领域带来革命性变革。
而更广的数据形态、更多的运用处景、更深的用户体验，亦将大幅提升支撑人工智能的算力需求，算力或迎来高速扩展时期，做事器、芯片、IDC、光通信等厂商有望核心受益。

人工智能芯片铸就算力底座，龙头破局加速追赶

AI芯片优化机器学习和深度学习运算，较传统CPU存在技能变革。
在CPU的根本上，AI芯片优化了在机器学习和深度学习中常用的运算，在并行打算、低精度打算、内存优化三个方面存在技能变革，与CPU发挥不同的功能，共同知足新时期打算需求。

根据技能架构分类，AI芯片包括图形处理单元（GPU），现场可编程门阵列（FPGA），以及特定运用集成电路（ASICs）。
1）GPU最初是为处理运用并行打算的图像而设计的。
2012年起，GPU开始越来越多地被用于演习AI系统；到2017年，GPU已成为主导的AI芯片。
根据海光信息招股解释书，目前GPGPU依旧是主流架构选择，占比达到90%。
2）然而，GPU仍旧采取了通用打算的设计，FPGA和ASIC与之相对，在演习和推理方面变得更加突出。
ASIC包括为特定算法定制的硬蚀刻的线路，由于ASIC对特定的算法做了优化，其常日比FPGA有着更高的效能和速率；FPGA的逻辑块使得其可以在制造后由程序员重新配置、适应特定的算法，比ASIC有着更高的通用性可以被二次编程运用与改造。

根据承担的任务分类，AI芯片包括演习芯片和推理芯片。
演习芯片通过大量标记或未标记的大数据来学习演习、搭建神经网络模型须要更强的算力、也每每带来更高的功耗；后者则以演习好的模型为原本推理出结论。
根据SCET的测算，演习芯片和推理芯片在效能和速率上比同等耗能的CPU有着10~1000倍的提升。

华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局，产品算力不断提升，部分性能靠近国际前辈水平：

华为昇腾（演习+推理）：1）推理卡：昇腾310芯片为华为首款全栈全场景AI芯片，功耗仅为8W，在范例配置下可以输出整数精度（INT8）达到16 TOPS，半精度（FP16）算力达到8 TOPS，其Atlas 300推理卡被广泛运用于聪慧城市、聪慧交通、聪慧金融等场景。
2）演习卡：昇腾910功耗310W，整数精度（INT8）的算力达到640 TOPS，半精度（FP16）的算力达到320 TFLOPS，可对标国际行业领先产品，其Atlas 300T演习卡紧张运用处景包括运营商、互联网、金融等须要AI演习以及高性能打算的领域。

海光信息（演习）：公司紧张产品包括通用途理器（CPU）和海光协处理器（DCU）。
海光DCU对应海光8000系列，为海光自行研发设计的AI演习芯片。
公司于2018年10月启动了“深算一号”的产品设计，现已实现规模发卖。
该芯片内置60-64个打算单元，最多4096个运算核心，具有较强的并行打算能力和较高的能效比，适用于向量打算和矩阵打算等打算密集型运用。
海光DCU兼容“类CUDA”（ROCm）的环境，软硬件生态丰富，可广泛运用于大数据处理、人工智能、商业打算等打算密集类运用领域。
2020年1月，公司启动了第二代DCU“深算二号”的产品研发事情。

寒武纪（演习+推理）：1）训推一体：思元370芯片是寒武纪公司推出的一款训推一体的AI芯片，采取7nm制程工艺和chiplet技能，集成390亿个晶体管，最大算力高达256TOPS(INT8)，是上一代产品思元270算力的2倍，内存带宽的3倍。
2）推理卡：寒武纪的思元270是一款推理芯片，可以处理非稀疏的AI模型，峰值性能达到128TOPS(INT8)。
思元270还支持包括INT4和INT16的多种精度运算，以及浮点和稠浊精度运算。
它适用于多种人工智能运用，包括视觉、语音、自然措辞处理和机器学习。
此外，思元290芯片是寒武纪的首款AI演习芯片，集成460亿个晶体管，HBM2内存则供应了AI演习中所需的高内存带宽，vMLU技能则帮助客户实现了云端虚拟化及资源隔离。

百度昆仑芯（演习+推理）：1）推理卡：昆仑芯一代和二代AI芯片分别名为K系列和R系列。
个中，昆仑芯1代AI芯片为云端推理芯片，支持通用AI算法。
该芯片算力强大，整数精度（INT8）达到256 TOPS，半精度（FP16）达到64 TFLOPS，可用于云数据中央和智能边缘，目前已在百度搜索引擎、小度等业务中支配数万片，赋能互联网、工业制造、聪慧金融、聪慧交通等领域。
2）训推一体：比较1代产品，昆仑芯2代AI芯片通用打算核心算力提升2-3倍，半精度（FP16）达到128 TFLOPS，可支持演习和推理，为数据中央的高性能打算供应强劲AI算力，支持虚拟化、芯片间互联和视频编解码。

景嘉微（推理）：景嘉微是国产高性能GPU领域的领军企业。
公司从2014年开始研发海内首款高可靠、低功耗GPU芯片JM5400，到2018年研制成功第二代高可靠、高性能GPU JM7200并得到市场广泛运用，再到2021年底完成第三代产品JH920的迭代升级。
JH920是景嘉微的第三代高性能GPU，性能比较前两代有了大幅度提升，紧张运用于中高端图形显示、通用打算、嵌入式等领域。
JH920全面支持国产CPU、国产操作系统和国产固件，可广泛运用于PC、做事器、图形事情站等设备，知足地理信息系统、图像匹配、旗子暗记处理、机载车载舰载显控等显示打算需求。

人工智能芯片铸就算力底座，龙头破局加速追赶

3.1软件强化GPU竞争壁垒，完善生态成为发展关键

英伟达CUDA生态强化芯片高壁垒。
CUDA是2006年由NVIDIA推出的通用并行打算架构，包含了运用于NVIDIA GPU的指令集（ISA）以及GPU内部并行打算引擎。
CUDA供应了GPU编程的大略单纯接口，程序员可以基于CUDA编译基于GPU的运用程序，利用GPU的并行打算能力更高效的办理繁芜打算难题。
根据宽泛科技公众号，Cuda推出之前，给GPU编程须要用机器码深入到显卡内核才能完成；Nvidia推出了Cuda往后，把繁芜的显卡编程包装成了大略的接口，造福了广大开拓职员，因此主流的深度学习框架多基于CUDA进行GPU并行加速。
据Jon Peddie Research数据，截止至2022年四季度，Nvidia以82%的市场份额保持着环球领先的独立GPU供应商的地位，Intel和AMD占比均达到9%。

软件生态成为GPU厂商的主要樊篱。
Nvidia的GPU目前在环球依旧是云端人工智能加速的主流办理方案，究其根本，其他AI芯片公司在生态上难以与Nvidia CUDA生态做竞争：一方面取决于CUDA完全编程和AI工具链，这些完全的工具链须要永劫光积累；另一方面取决于其广泛的运用程序和互助伙伴。

1）AI工具链生态完善有利于芯片推广。
任何新的打算平台推广的低级阶段，都须要开拓职员将原有运用程序重新移植到新平台，因此开拓职员须要前辈的工具链和开拓环境；而运用程序扩展后，在数据中央级别也会须要更多工具来进行支持。
以CUDA为例，NVIDIA依赖CUDA平台，经由长期积累形成完备的工具链，同时与第三方进行互助，为开拓者供应打造了完备的生态组件，而生态组件和硬件深度绑定，也更有利于NVIDIA芯片的拓展。

2）运用程序和互助伙伴影响着芯片的落地。
构建在芯片之上的软件生态深刻影响着芯片的可用性，芯片上层运用程序与互助伙伴，直接决定了芯片是否真正落地和值得投资。
Nvidia便不断向全新的打算领域发起攻势，打算领域从云打算、医疗，一起扩展到自动驾驶、机器人、措辞类大模型，乃至包括NASA火星上岸操持。

ROCm对标CUDA，在源码级别上对CUDA程序的支持。
2015年AMD公司为了对标CUDA生态而开拓的一套用于HPC和超大规模GPU打算供应的开源软件开拓平台ROCm，目标是建立可替代CUDA的生态，并在源码级别上对CUDA程序的支持。
AMD的生态虽然基于开源生态OpenCL开拓，但AMD也制作了HIP的编程模式，险些通盘拷贝CUDA API，2016年AMD曾展示了从CUDA向HIP移植深度学习框架CAFFE，99.6%都是自动移植完成。

借鉴AMD发展思路，短期内国产GPU若兼容CUDA利于推广，发展自有的核心技能为长期策略。
1）短期来看，国产GPU兼容CUDA等国际生态可以借助英伟达打造好的软件生态，减轻开拓和迁移难度，也降落了推广压力。
2）长期来看，由于CUDA架构会做出部分微调，国产GPU如果完备基于CUDA生态进行开拓，硬件更新将绑定英伟达的开拓进程，因此，完善自身工具链与下贱运用，构建公司生态壁垒，发展自有的核心技能应为长期策略。

3.2海光生态：兼容国际主流打算生态，下贱运用丰富

海光DCU产品兼容国际主流生态，有利于快速迁移。
跨平台迁移过程中算子缺失落和精度低落，会导致迁移成功率低。
海光DCU协处理器全面兼容ROCm GPU打算生态，由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性，CUDA用户可以以较低代价快速迁移至ROCm平台，ROCm也被称为“类CUDA”。
因此，海光DCU协处理器能够较好地适配、适应NVIDIA商业打算软件和人工智能软件，软硬件生态丰富，可广泛运用于大数据处理、人工智能、商业打算等打算密集类运用领域，紧张支配在做事器集群或数据中央，为运用程序供应高性能、高能效比的算力，支撑高繁芜度和高吞吐量的数据处理任务。

完善AI工具链生态，最大限度利用已有的成熟AI算法和框架。
1）供应统一底层硬件驱动平台，支持常见打算框架、库和编程模型；2）供应层次化软件栈，适配不同API接口和编译器，可最大限度利用已有的成熟AI算法和框架。

与CPU形成协同效应，CPU+GPGPU异构运算架构提高灵巧性。
1）运算协处理器存在多条技能路线，包括GPGPU、ASIC、FPGA等。
个中GPGPU的代表企业包括NVIDIA 和AMD；利用ASIC技能，许多大公司都研发了协处理器产品，包括Intel的Phi和NNP、Google的TPU、华为昇腾、寒武纪思元等；基于Intel、Xilinx的FPGA，涌现过很多专用协处理器产品。
2）综合考虑性能、能效比和编程灵巧性等方面的成分，GPGPU在协处理器运用领域具有非常明显的上风，霸占人工智能 90%以上的市场份额，在智能工厂、无人驾驶、聪慧城市等领域具有广泛的市场空间。
3）海光采取GPGPU路线，CPU+GPGPU 的异构运算架构可以让系统具有更大灵巧性，知足繁芜场景的不同需求，能够较大幅度地提升单独利用CPU或GPGPU的任务实行效率；CPU和GPGPU之间还可以通过内存共享等办法进行数据交互，发挥异构打算的上风。

CPU与GPGPU得到家当链各环主流厂商支持，互助厂商不断增多。
目前公司已具备完善的家当链生态，在操作系统、云打算、数据库、大数据、人工智能、商用打算软件等各环节支持主流厂商产品与做事。

中科曙光：截止至2022年3季报，中科曙光持有海光信息27.96%股份。
中科曙光为国产做事器办理方案龙头企业，其做事器办理方案成熟，助力海光拓展行业市场。
其他OEM客户支持：海光产品已经得到新华三、遐想等浩瀚OEM客户支持，形成全面完备的整机实例，推进后续客户对公司产品的购买。
支持主流BIOS：目前公司产品支持主流BIOS厂商，如百敖、昆仑、insyde等。

加速以海光为核心的自主化生态，成立“光合组织”，面向家当链生态培植：

2020年4月，公司成立“海光家当生态互助组织”，简称“光合组织”，旨在环绕海内自主通用打算平台，联合家当链高下游企业、高校、科研院所、行业企业等干系创新力量，实现协同技能攻关，共同打造安全、好用、开放的产品与办理方案，并开展测试认证、技能培训、方案孵化、运用示范、推广互换等系列活动，促进互助组织成员的共同发展，共建原谅、繁荣的信息技能生态系统。
光合组织推进成果颇丰。
目前，光合组织已有成员1000+，适配认证厂商500+，产品适配认证1000+，成立区域分会10个，适配中央15个。

根植海内市场，海量需求将持续积淀Know-how，未来将拓展更多下贱领域。
目前，海光DCU紧张面向大数据处理、商业打算等打算密集型运用领域以及人工智能、泛人工智能运用领域。
比较国际芯片领先企业，公司根植于中国本土市场，更理解中国客户的需求，能够供应更为安全可控的产品和更为全面、细致的办理方案和售后做事，具有本土化竞争上风。
随着公司产品在上述领域中示范效应的逐步显现，以及公司市场推广力度的不断加强，公司产品将会拓展至更多领域，霸占更大的市场份额。

3.2昇腾生态：搭建全栈AI打算，生态伙伴深入

昇腾打算家当生态是基于昇腾系列处理器和根本软件构建的全栈AI打算根本举动步伐、行业运用及做事，详细可以分为昇腾打算软硬件体系、互助伙伴、行业运用三层。

1）硬件体系：Atlas系列硬件产品，比如嵌入式模组、板卡、小站、做事器、集群等。
Atlas互助伙伴包括神州数码、湘江鲲鹏（拓维信息）、安擎、宝德、华鲲振宇（长虹）、长江打算、黄河科技、新华三、百信、清华同方、广电五舟等。

神州数码：2021年作为华为昇腾算力9家整机互助伙伴之一，公司在昇腾算力领域率先落子。
根据公司官方"大众年夜众号，神州鲲泰KunTai A722推理型做事器以“鲲鹏+昇腾”为核心，在2U紧凑空间内，可供应128个处理核心的算力，同时最大可支持8张华为Atlas 300推理卡，供应256GB推理缓存，以及最大 704 TOPS INT8 的AI算力。
拓维信息：2021年公司成为昇腾首批整机互助伙伴，2022年4月兆瀚推理做事器RA2300-A系列是基于昇腾处理器开拓的AI推理做事器，完成与华为Atlas 300I Pro推理卡和Atlas 300V Pro视频解析卡的兼容性测试，最多可搭载8张Atlas 300V Pro 视频解析卡或Atlas 300I Pro 推理卡。

2）根本软件：

异构打算架构CANN以及对应的驱动、运行时、加速库、编译器、调试调优工具、开拓工具链MindStudio和各种运维管理工具等，开放给广大的开拓者和客户；AI打算框架，包括开源的MindSpore，以及各种业界盛行的框架，作为生态的有机组成部分：MindSpore互助伙伴包括鹏城实验室、深圳湾实验室、北京大学、清华大学、哈工大、斗鱼等。
AI开拓平台ModelArts、HiAI Service等，互助伙伴包括第四范式、依瞳科技、中科弘云等。

3）行业运用伙伴：广大互助伙伴与华为一起，已经推出了浩瀚AI办理方案，在运营商、金融、互联网、能源、交通、教诲、医疗等各个行业得到广泛运用，并在实践中创造了很好的行业代价。

常山北明：根据全资子公司北明软件官方公众年夜众号，2021年北明软件与南京江北新区正式签约，助力华为与江北新区打造南京昇腾人工智能打算中央；2022年4月，北明软件正式加入昇腾万里伙伴操持，成为昇腾运用软件伙伴，明确在金融、互联网、电力等领域的全方位互助意向。
在华为的引领与华为生态伙伴的协同下，昇腾行业生态日渐完善。

投资标的

以ChatGPT为代表的大模型时期来临，语音、图片、视频等多模态AI技能快速崛起，更广的数据形态、更多的运用处景、更深的用户体验，算力需求陡增。
而AI芯片作为算力的核心，目前被外洋厂商霸占大部分，而海内华为昇腾、海光信息、寒武纪、百度等龙头正在加速布局。
考虑到除了GPU本身的技能壁垒外，软件生态也成为强化GPU厂商竞争力的主要樊篱，建议关注产品性能突出、生态完善、下贱运用丰富的海光和鲲鹏及其互助伙伴：1）海光生态中的海光信息、中科曙光等；2）昇腾生态中的神州数码、拓维信息、常山北明等。

风险提示

AI技能迭代不及预期风险：若AI技能迭代不及预期，NLP技能理解人类意图水平未能取得打破，则对家当链干系公司会造成一定不利影响。

经济下行超预期风险：若宏不雅观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和家当链生产意愿，对全体行业将会造成不利影响，NLP技能运用落地将会受限。

行业竞争加剧风险：若干系企业加快技能迭代和运用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。