首页 » 科学 » AI芯片市场必有Graphcore的一席之地_开辟者_处置器

AI芯片市场必有Graphcore的一席之地_开辟者_处置器

admin 2025-01-20 02:02:03 0

扫一扫用手机浏览

文章目录 [+]

根据Global Market Insights的数据预测,在2019年,环球的AI芯片组市场规模超过了80亿美元。
而估量到2026年,这个数字将飙升至700亿美元,年复合增长率高达35%。
在此期间,GPU将会盘踞主导位置,FPGA同样也会扮演主要角色。
数据显示,2019年,GPU在AI芯片市场的份额高达45%,而FPGA在未来几年的年复合增长率也会达到25%。

除了这两者以外,以Intel X86处理器为代表的CPU和以谷歌TPU为代表的ASIC也是AI芯片市场的主要构成。
这四种产品也由于各自的性能特点,在AI芯片市场拥有各自的位置。
这也是一样平常行业剖析师对AI芯片的分类。

AI芯片市场必有Graphcore的一席之地_开辟者_处置器 科学

但在AI芯片初创公司Graphcore的CEO Nigel Toon看来,现在的AI硬件有三类办理方案:

第一类是一些非常大略的小型化加速产品,运用于手机、传感器或摄像头中。
在他看来,这类产品对厂商有较大寻衅,算法也在演进。
因此不断会有新的问题产生。

第二类是ASIC,这是一些超大规模的公司为办理超大规模的问题而研发出的产品,比如谷歌的TPU就属这类。
这些产品旨在用数学加速器办理问题。

第三类是可编程的处理器(Program Processor)。
在Nigel Toon看来,这类市场目前还是GPU的天下。
“但我认为Graphcore也从属这类市场,未来Graphcore在这个市场会产生非常多的运用处景,通过不断创新赢得更多市场份额。
”Nigel Toon进一步指出,Graphcore要做的是一个非常灵巧的处理器,一个从零开始专门针对AI而生的处理器架构——这便是他们的IPU。

IPU:一个为AI而生的处理器

所谓IPU,便是Intelligence Processing Unit,这是英国AI芯片初创公司Graphcore专门为机器智能设计的完备不同的处理器架构。

据Graphcore高等副总裁兼中国区总经理卢涛先容,IPU是一个完备不同于GPU或其他处理器的产品。
数据显示,IPU在自然措辞处理方面的速率能够提升20%到50%;在图像分类方面也有6倍的吞吐量提升且具有更低的时延;在一些金融模型方面,IPU的演习速率更是能提高26倍以上。

卢涛(JasonLu)

Graphcore高等副总裁兼中国区总经理

能达成这样的效果,IPU的架构设计是根本。

卢涛表示,与传统的CPU和GPU不同,IPU运用了一个大规模并行MIMD的处理器核。
相对CPU的DDR2的子系统或者是GPU的GDDR、HBM,IPU的这个设计能够实现10到320倍的性能提升。
而从时延的角度看,与访问外存比较较,时延基本上为1%、险些可以忽略不计。

基于这种设计,IPU不单能够办理AI作为一种全新运用带来的不同架构哀求,同时也能知足AI算力日益增加的需求。
更主要的是,IPU这个全新架构绕开了大家对AI所熟习的“冯诺依曼瓶颈”。
基于这样的领先观点,Graphcore推出了他们的第一款IPU处理器GC2。

据理解,GC2是一个利用台积电16nm工艺打造的处理器,片内拥有1216个IPU-Tiles,而每个Tile有独立的IPU核作为打算以及In-Processor-Memory(处理器之内的内存)。
换而言之,全体GC2统共有7296个线程,能够支持7296个程序同时运行。
而In-Processor-Memory也达到了300 MB,因此可以完成将所有模型在片内处理的目标。

对付这种设计,读者大概会迷惑,产品如何担保IPU内核心之间的通信。
从卢涛的先容中我们得知,Bulk Synchronous Parallel(BSP)同步便是他们的办理方法。

“在各个核心之间我们进行BSP同步,以此支持同一个IPU处理器内1216个核心之间的通信,以及跨不同IPU之间的通信。
这些都是通过BSP的同步协议即接口来实现的,中间有一个非常高速的IPU exchange的8TB/s多对多交流总线。
” 卢涛阐明称。
据悉,IPU是环球第一款BSP处理器,通过硬件支持BSP协议,并通过BSP协议把全体打算逻辑分成了打算、同步、交流。
由于无需处理locks这个观点,IPU对软件工程师或开拓者而言非常易于编程。
而用户也无需操心这里面是1216个核心(Tile)还是7000多个线程、任务详细在哪个核上实行,因此IPU是一个非常用户友好型的创新。

“其余,在IPU和IPU之间,我们有80个IPU-Links,统共有320GB/s的芯片与芯片间的带宽。
以是一个处理器就可同时支持演习和推理。
”卢涛补充说。

总体看来,IPU GC2是天下上非常繁芜的拥有236亿个晶体管的芯片处理器,在120瓦的功耗下有125TFlops的稠浊精度、1216个独立的处理器核心(Tile)、300 M的SRAM能够把完全的模型放在片内。
其余在带宽上,内存可以达到45 TB/s、片上交流为8 TB/s,片间的IPU-Links也能达到2.5 TB/s。

Poplar:AI开拓者交口夸奖的SDK

如前所述,Graphcore的IPU实力毋庸置疑,但这仅仅是他们面向AI市场推出的一个硬件产品。
作为一家以AI为己任的企业,Graphcore还供应了软件和系统办理方案。
正是在这三者的共同推进下,Graphcore才能够让开发者更好地拥抱这个面向未来的AI生态。
当中的Poplar软件栈,更是Graphcore芯片落地的主要一环。
这也是他们领先于大部分AI芯片初创企业的成分之一。

“不管芯片架构如何,能真真正正让用户得到体验感的还是SDK,包括可用性、用户和研究者能否方便地在系统上进行开拓、移植和优化。
”卢涛指出,“而Poplar正是这样的一个SDK。

Poplar是软件栈的名称、是一个架构在机器学习的框架软件(比如TensorFlow、ONNX、PyTorch和PaddlePaddle)和硬件之间的基于打算图的整套工具链和库。
Graphcore迄今为止已经供应了750个高性能打算元素的50多种优化功能,支持如TensorFlow 1、2,ONNX和PyTorch等标准机器学习框架。
值得一提的是,Graphcore将会很快支持百度开拓的PaddlePaddle。

在支配方面,Graphcore的Poplar现在可以供应容器化支配支持,能够快速启动并且运行。
在标准生态方面,Poplar能够支持Docker、Kubernetes以及微软的Hyper-v等虚拟化技能和安全技能。
在操作系统方面,Graphcore支持广泛运用的三个Linux发行版:ubuntu、RedHat Enterprise Linux和CentOS。

除此之外,Graphcore还推出了一个名为PopVision™ Graph Analyser的剖析工具。
开拓者、研究者在利用IPU进行编程时,可以通过PopVision这个可视化的图形展示工具来剖析软件运行、效率调试调头等情形。
“从推出到现在,内外部开拓者对PopVision的评价反馈极佳。
”卢涛补充说。

为了进一步帮助开拓者在IPU上实现AI落地,Graphcore在今年五月还上线了Poplar开拓者文档和社区,由此为开拓者供应大量的Poplar user guide、文档以及如何在TensorFlow进行IPU开拓、如何把TensorFlow模型移植到IPU和TensorFlow模型如何并行发展等参考资料。

在卢涛看来,作为一个针对性开拓的SDK,Poplar能够帮助开拓者轻松地从零开始设计那些以支持在Graphcore IPU上构建和实行运用程序的框架和标准库。
卢涛指出,AI的开拓者有三类。
第一类是基于TensorFlow和PyTorch框架的开拓者,他们紧张利用的开拓措辞为Python;第二类是基于NVIDIA cuDNN的开拓者;第三类是CUDA级别的开拓者。
在这之中,第一类开拓者的占比为90%,第二类开拓者的占比为9%,末了一类开拓者的占比为1%。
面向这三类开拓者,Poplar都能供应简明的迁移方案。

“如果您是一个TensorFlow或PyTorch的开拓者,那您转移到IPU平台上的开拓代码的迁移本钱非常低,由于我们也在利用Python进行开拓,同样的API意味着非常低的本钱;如果是第二种开拓者,我们会供应和cuDNN类似的用户体验,而实践也证明我们在这方面表现不错;至于第三类,也是寻衅最大的一类,由于这相称于一个重新实现的过程。
但从海内部分用户的反馈来看,Poplar的易用性比CUDA还好。
”卢涛强调。

“软硬兼施”下的各处着花

在这些软硬件生态的推动下,基于IPU的运用已经覆盖了包括自然措辞处理、图像/视频处理、时序剖析、推举/排名及概率模型在内的多个领域。
从实际的运用效果来看,IPU得到了比竞争对手更好的表现。

以BERT的演习为例,NVLink-enabled的平台大概须要50多个小时才能做到一定精度,而基于IPU的戴尔DSS-8440做事器只需36.3小时,演习韶光提高了25%。
以BERT的推理来看,在同样时延的情形下,IPU能够得到比当前最好的GPU高一倍的吞吐量。

Graphcore中国发卖总监朱江先容称,该公司的产品已经在多个运用市场得到客户认可。
当中最值得一提的是微软利用了IPU演习CXR(胸部X光射线样片),从而帮助医学研究职员进行新冠肺炎的快速准确诊断。

朱江

Graphcore中国发卖总监

朱江表示,微软发布的方案展现了IPU在微软自己专门创新的SONIC CV模型里,通过30分钟的韶光就能够完成传统GPU须要5个小时才能完成演习的事情量。
“微软方案中用到了两个不同的模型,第一个模型较传统、最近一两年出来的、他们做的EfficientNet-B0版本的模型。
这个模型的模型尺寸比较小,只有540万参数,但能得到比更为传统和主流的ResNet更高的精度。
”朱江补充说。

微软案例表示出IPU在医疗和生命科学领域的上风。
除此之外,IPU还能在金融、电信、机器人、云和数据中央以及互联网等多个领域发挥巨大浸染。
这些领域的开拓者也正在从与Graphcore的互助中受益。

在中国,Graphcore正在和包括阿里巴巴和百度在内的AI先行者建立密切的互助,推动IPU迅速融入本地AI生态系统。

朱江见告,在今年五月举办的OCP Summit上,阿里巴巴集团异构打算首席科学家张伟丰博士宣告了Graphcore支持ODLA(Open Deep Learning API)硬件标准。
通过这种构造,阿里巴巴试图为底层的架构设计出一个统一的API接口,而Graphcore已经能够支持ODLA。

此外,百度近日发布了海内一个主要的深度学习开源框架“飞桨”,在其上面也拥有非常广大的生态系统,包括百万以上的开拓者和几十万的模型。
鉴于该生态带来的市场影响力,Graphcore也已加入百度飞桨生态系统,会和百度飞桨一起帮助开拓者进行打破性创新、加速AI模型支配及进入市场。

卢涛表示:“长期来说,我们对中国市场的期望颇高,希望中国市场能为Graphcore贡献40%乃至50%的营收。
为了达成这个目标,我们正在‘练内功、打根本、共同培植’,不断占领技能上的难题。

而为了更好拥抱中国市场,Graphcore还有针对性地支配本地化产品和做事。
在做事方面,Graphcore在海内目前有两支技能团队,一支因此定制开拓为紧张任务的工程技能团队,另一支因此用户技能做事为主的现场运用团队。
详细而言,工程技能团队紧张承担两方面的事情:一是根据中国本地的AI运用特点和需求,把AI算法模型在IPU上进行落地;二是根据中国本地用户对AI稳定性学习框架平台软件方面的需求,进行功能性的开拓。
现场运用团队则是帮助用户进行现场技能支持。

目标成为第三大独立AI方案供应商

在与Graphcore互换的过程中,卢涛多次强调AI芯片从做出来到商用落地,中间存在非常大的鸿沟。
如果AI芯片公司意识不到这个问题,未来面临的寻衅就会非常大。
他进一步指出,衡量AI芯片真正商业化的标准紧张为:

第一,是否具有支持AI连续学习的平台软件、支持效果如何;

第二,大规模支配的软件对Docker、虚拟化的支持如何。
如果这两方面支持得比较好,那算法运用就能真正落地;

第三,产品化的支配,即达成真正的商业化;

而Graphcore已经跨过了这些鸿沟,成为了“幸存者”。
但我们同时也该当看到,过去一年多以来,无论是Intel Nervana项目的事实上发布失落败,还是Wave Computing的破产,都彷佛透露出AI行业并没有想象中的那么大略,有些人乃至认为AI的低潮期已经到来。

针对这个问题,卢涛认为:“实在全体AI行业并没有走向低潮。
相反,今年会有很大发展。
由于自然措辞处理干系运用的崛起会催生大量的、各种各样的运用,以及在算力方面有很大提升。

“现在一样平常的CV类模型为几兆、几百万或几千万的参数,而大一些的NLP模型可以达到一亿、十亿、一百亿。
这些模型对算力的哀求均为指数级,以是我们认为AI行业并没有碰着寒冬。
”卢涛说。

在谈到未来发展目标时,卢涛表示,现在的独立AI供应商市场在打算方面会有两个紧张来源,分别是CPU和GPU,而这两个领域也在不断更新和发展,由于它们在不少运用处景上有相称大的上风。
而IPU的目标则是成为CPU和GPU外的第三大来源。

“IPU旨在帮助用户应对当前在GPU、CPU上表现不太好的、或者说是阻碍大家创新的场景。
”卢涛补充道。
而今年下半年的新一代IPU是他们连续竞赛这个市场的“成本”。

卢涛见告,AI在未来会有更强的算力需求,持续推出性能强劲的处理器是一定的发展方向。
而英伟达最新推出的A100在表现上相称惊艳。
但他强调,Graphcore即将推出的利用7nm工艺打造的新一代IPU在性能上并不会输给英伟达的A100。

免责声明:本文由作者原创。
文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。

本日是《半导体行业不雅观察》为您分享的第2344期内容,欢迎关注。

半导体股价|台积电|NAND Flash|晶体管|AI|EDA|中美|封装|射频

相关文章