燧原科技创始人兼 COO 张亚林见告雷锋网:“基于邃思2.0芯片打造的云燧T20加速卡支持的集群规模从上一代云燧T10的千张卡提升至8000卡,用云燧T20可以打造一个E级单精度算力集群CloudBlazer Matrix 2.0。”
E(Exascale)级打算也便是百万兆级的打算,是目前环球顶尖超算系统新的追逐目标。用一个禁绝确的说法来阐明百万兆级打算,一个百万兆级打算机一瞬间进行的打算,相称于地球上所有人每天每秒都一直地皮算四年。
那号称中国最大AI单芯片,有何特色?竞争力到底如何?
燧原科技CEO赵立东(左)与 燧原科技COO张亚林(右)
中国最大AI打算单芯片的两个“首个”
2019年底,燧原科技发布了从启动项目研发到发布用时仅18个月的云端演习芯片邃思1.0,基于邃思1.0的云燧T10加速卡单精度算力高达20TFLOPS。时隔一年半,邃思2.0和云燧T20就推向市场。之以是说“就”,是由于云端演习这样繁芜的超高算力芯片常日的迭代周期是两到三年一代,如果遇上分外情形可能还会延迟半年。
“我们第一代和第二代产品的迭代节奏快于业内速率,紧张有两方面的缘故原由,一方面是首代产品落地后得到了用户的反馈,另一方面是我们内部技能和架构的更新,催生了第二代产品。”张亚林说,“从一开始我们就强调精准实行产品路线图,第二代产品精准符合燧原的产品路线图。”
至于燧原未来是否会保持云端AI演习芯片一年半一代的更新速率,张亚林表示目前暂未便利透露,但会精准实行其产品路线图。
想要在全体行业缺芯的大背景下精准实行产品路线图显然是一个巨大的寻衅,雷锋网理解到,在2020年疫情开始的时候,燧原准备了两套方案,同时发挥团队成员超过15年以上行业履历的上风,以及第一代产品开拓过程中建立的供应链关系,终极担保产品的准期推出。
张亚林说:“燧原的全体供应链非常稳健,客户不必担心燧原产品的供货问题。”
在路线图精准下,为什么要把芯片面积做大?张亚林阐明,燧原做芯片是高举高打,做大芯片和高端芯片是我们追求的目标,芯片的尺寸大小背后代表的是科技含量,对付中国芯片行业的贡献才是更大的代价表示。
但更大的芯片面积,就代表着更高本钱。对此,张亚林表示:“一个成熟的产品必须考虑回报率(ROI)。我们须要做的是在定义产品时,打算好这个产品在市场上的整体收入和销量,从全体产品的本钱角度和能够带给客户的代价定义产品。以是我们会持续关注前沿技能,但不会一味追求最新的技能,依然从芯片的性能、本钱、功耗三方面考虑。”
邃思2.0的特性中,有两个中国首个,一个是首个支持TF32精度的AI芯片,另一个是首个支持最前辈内存HBM2E的产品。
AI业界一贯在追求用更小的数据位宽实现更高的模型精度。因此,AI模型不断优化,数据类型不断推新,AI芯片作为底层支撑就须要在支持更多数据类型的同时花费更低能耗。
TF32代表的是张量单精度32位数据类型,比较传统的FP32,TF32在位宽更大的同时,花费的带宽以及打算资源显著更小,被业界视为能够取代全尺寸单精度数据的改造性数据精度。
“目前业界的判断是,TF32对大部分AI场景都有运用潜力。我们紧跟国际创新者的步伐,很早就布局数据进度的研究和剖析,以是才有了燧原第二代产品就支持TF32精度。”张亚林同时指出:“邃思2.0支持全精度AI精度范围,包括FP32、TF32、FP16、BF16和INT8。要用一个非常革命性的算力引擎席卷所有的精度,并且能够做到所有的精度的算力都有效,这是非常大的寻衅。”
冲破算力与存储之间的瓶颈,高效利用数据是AI芯片的另一大寻衅。在海内最大的AI打算单芯片中,集成了4颗三星HBM2E,支持最高64 GB内存,内存带宽最高达1.8 TB/s。
“HBM2E是目前环球最快的存储芯片,通过集成4颗HBM2E,邃思2.0可以实现算力和存储带宽的匹配,实现更强算力。我们一贯努力把理论算力和理论带宽匹配,有效掌握全体产品的本钱。采取最新的技能并不会使我们产品的整体拥有本钱增加。”张亚林表示。
在燧原的产品理念中,更好的AI芯片只是构建AI系统的根本,客户最关心的并非底层AI芯片的参数。
AI芯片的比拼上升到系统级
“客户并不会直接关心芯片层面的理论参数,AI落地的时候,他们更看重的是包括硬件、软件、互联的整体办理方案的有效利用率。以是我们已经从单芯片的维度升级到了更高的系统层面。这也是燧原推出整机多卡、多卡互联、分布式软件、云端支配的一整套交钥匙办理方案的缘故原由。”张亚林说道,“我们也更强调通过低碳绿色化的云燧智算集群做事客户。”
AI芯片的比拼要升级到AI系统的比拼,从用户角度,比拟AI系统的维度就会包含五个:软硬件一体的性价比、能效比、易用性、迁移本钱、范化性。
既然是系统,互联技能非常关键。目前,业界通过不同的远程直接内存访问技能(RDMA)进行互联,比如InfiniBand、iWARP、RoCE。燧原采取的是自研GCU-LARE互联技能实现云燧AI加速卡的多卡集群互联,同时兼容业界其它RDMA技能便于与其它系统互连。
据先容,燧原自研的GCU-LARE多卡集群互联技能,支持6个带宽50GB/s的卡间传输端口,总带宽达到300 GB/s。
GCU-LARE具备两大特色,一个是不须要传统互联技能的连接卡或桥接卡,可以直接通过线缆的办法直连,降落本钱。另一个是能够根据用户的需求和机房的实际情形,定制不同的拓扑构造,能够轻松构建4000卡以上的大型演习集训拓扑,实现定制化集群产品CloudBlazer Matrix。
在云燧T20的发布会上,燧原发布了云燧智算集群 CloudBlazer Matrix 2.0,最高可实现1.3E(130000T)的单精度只能算力集群。
“云燧的互联接口在单口速率保持不变的条件下,接口数量从T10的4个增加到T20的6个,带宽提升150%。用云燧T20可以打造中国E级单精度算力集群。”张亚林表示。
“在软件易用性和迁移本钱方面,我们投入了大量精力。”
与云燧T20一起发布的还有软件平台驭算2.0,进行了多方面提升,包括:为用户供应高度契合业界标准的编程接口,以支持高性能自定义算子开拓;全面优化的动态性模型支持;引入业界前辈的MLIR编译框架;基于启示式自适应方法的算子泛化实现以及图优化策略,可以广泛支持更多标准模型和自定义模型演习。
张亚林先容:“驭算2.0的重点是提升易用和泛化,同时也能降落迁移用户的本钱。我们的产品从第一代开始就采取的热启动的办法降落用户的迁移难度和本钱,也便是在进行硬件架构设计的时候就已经考虑了客户的需求,在落地的时候得到了客户认可。如今第二代产品,同样采取热启动的方法,利用更多的用户反馈进一步降落迁移难度和本钱。”
“在软件层面,现在业内比较通用的两个AI框架是TensorFlow和Pytorch,如果他们的模型完备基于框架开拓,切换到燧原的产品只须要硬件切换,软件可以无缝切换。软硬件一定是一体化,也只有软硬一体化设计才对客户有更高代价。”张亚林进一步表示。
因此,驭算2.0还支持资源虚化、重组以及系统级设备虚拟化,利用户在业务支配和资源整合上可拥有更为灵巧的方法;支持4000卡规模以上的集群分布式演习;升级系统兼容性方案、支配方案和RAS,支持主流操作系统最新发型版,开箱即用,简化客户定制系统集成,对客户的支配和运维更加友好。
实际上,芯片实力的比拼从来都不是单芯片的比拼,而是系统和生态实力的比拼。纵不雅观目前环球前几大芯片巨子,持续迭代的芯片只是其保持竞争力的根本,环绕芯片的互联技能、软件栈以及不断拓展的生态才是竞争的护城河。
燧原既然已经从单芯片的能力拓展到系统层面,那如何寻衅云端演习芯片的霸主英伟达?
聚焦三个业务群,与霸主差异化竞争
“作为一个追赶或者新生者,差异化竞争是一定的。燧原进行差异化竞争时一贯看重三个部分,第一是我们供应的算力性价比一定要越来越好,第二是中国有最丰富的业务场景,也有最丰富业务场景利用者,以是我们与最丰富的业务场景做更多深入的结合,并进一步做业务场景的泛化,第三便是本土化、定制化、客户的做事开拓。”张亚林说。
据雷锋网理解,燧原从2020年公布第一个落地客户腾讯开始,一贯坚持的是三条业务线:泛互联网、垂直行业(金融、交通、电力、医疗、工业等)以及新基建。
“我们在这三个业务线上不断发力,构筑全体业务群,三个业务群都已经实现客户接入,同时也拿到非常多的客户反馈。有了因第一代产品开拓的计策互助伙伴,利用第二代产品我们可以把这三个业务群的场景和客户群扩大,这也是燧原的生态护城河。”张亚林表示。
燧原科技CEO赵立东还宣告了燧原的异构打算生态——“燎原”操持,目标因此AI为出发点构建通用异构打算生态,构建标准化技能体系,共建完全生态做事数字中国。
三个业务群对燧原的产品生态也有不同的意义。商业客户更看重全体业务,或产品的性价比。传统行业更多看重的端对真个办理方案,而不是一个大略的加速卡。
张亚林阐明,燧原与商业客户一起打磨产品,建立原始创新生态。在传统行业客户端打磨端对真个场景生态。同时,燧原科技相应国家绿色化的号召,实现集群的功耗、能效进一步的优化,真正能够在新基建层面做出更加普惠的绿色算力,符合国家关于碳中和、碳达峰的政策导向。
“对付初创公司而言,刚开始须要尽快证明我们的实行力、产品以及商业化的代价,以是与一些计策伙伴展开了互助,但这并不代表我们的产品是专用的。随着我们第二代产品的推出,会进一步泛化场景和拓展客户,从一个点切开一条线末了达到一个面。并且,对付任何一家初创公司而言,智能打算的任何一个市场都已经足够弘大。”张亚林说。
除此之外,燧原还通过与之江实验室、上海交通大学、西安交通大学等高校的互助,构建生态的同时培养人才。
对付与海内和国际巨子的竞争,张亚林的态度是,“目前对海内芯片行业的发展是天时地利人和,我认为海内半导体和AI赛道百花齐放是好事,我们会坚持自己,志存高远、脚踏实地。追赶国际巨子,作为中国芯片公司有市场、政策和资金的上风,我们的普惠智能算力只是第一步,未来燧原会在异构打算领域不断拓展产品线,供应更多异构打算的整体办理方案。”
小结
芯片性能参数的提升是最随意马虎感知和理解的产品升级,但这却不是芯片公司最强大的竞争力所在,环绕芯片构建的接口、标准、互联技能,以及软件栈、客户认可、互助伙伴生态才因此芯片为核心构建竞争力公司的终极目标。
这也是在AI时期浩瀚芯片初创公司流传宣传的算力超越行业领导者,却未能得到大量订单的关键所在。很好的征象是,已经有以燧原为代表的AI芯片初创公司,开始去强调AI算力系统的代价。