首页 » 科学 » 一家英国明星芯片公司“悄然”入华!叫板英伟达A100_处置器_模子

一家英国明星芯片公司“悄然”入华!叫板英伟达A100_处置器_模子

南宫静远 2025-01-17 12:34:35 0

扫一扫用手机浏览

文章目录 [+]

他口中的 Graphcore,是来自英国的 AI 芯片公司。
这家公司创办于2016年,在芯片领域有着多年履历的奈杰尔·图恩(Nigel Toon)担当联合创始人和 CEO,曾创办过两家处理器公司的西蒙·诺尔斯(Simon Knowles)担当联合创始人和 CTO。

图 | Graphcore(来源:Graphcore)

一家英国明星芯片公司“悄然”入华!叫板英伟达A100_处置器_模子 一家英国明星芯片公司“悄然”入华!叫板英伟达A100_处置器_模子 科学

这家分公司遍布多个国家和地区的公司,于 2019 年进入中国。
9 月 19 日,DeepTech 和 Graphcore 高等副总裁兼中国区总经理卢涛,就干系问题进行了互换。

一家英国明星芯片公司“悄然”入华!叫板英伟达A100_处置器_模子 一家英国明星芯片公司“悄然”入华!叫板英伟达A100_处置器_模子 科学
(图片来自网络侵删)

图 | 卢涛(来源:Graphcore)

他表示,Graphcore 的紧张技能因此 IPU 处理器、为 IPU 打造的 Poplar 软件。
基于 IPU 处理器和 Poplar 软件栈,Graphcore 的产品末了以用在IPU做事器中的PCIe 卡、IPU 系统产品 IPU-Machine 和 IPU-POD 的形式呈现给用户。

Graphcore 已经取得了一些阶段性进展。
截止目前,IPU 已达到一万多片的发货规模,并做事于环球超过 100 家的机构,其紧张运用在互联网大规模数据中央、高校和科研机构等。
同时,IPU 也在支撑医疗、金融、生命科学、汽车、金融和打算领域方面的运用。

2019 年初,AI 教父杰夫·欣顿(Geoff Hinton)在接管采访的时候,被问未来什么样的打算系统会更像大脑?他的回答是:“我认为我们须要转向不同类型的打算机。
幸运的是,我这里有一个...” 欣顿伸手进入他的钱包,拿出一个又大又亮的硅片——一个 Graphcore IPU 芯片。

IPU带来可持续发展路径

2016 年,环球 AI 家当进入高速发展阶段。
在过去,大概每隔三个月,模型参数规模就会提高一倍。
2018 年 10 月,谷歌的 BERT 模型有 3.3 亿个参数。
2019 年3 月,OPEN AI 的大型措辞模型 GPT-2 达到 15.5 亿个参数。
2020 年,GPT-3 达到 1750 亿个参数。
GPT-3 模型完成一次完全演习,要耗费千万美金级别的花销。
这样的密集打算,很难带来持续发展。
那么,是否有可持续发展的路径?

在论文《EfficientNet:对卷积神经网络的模型缩放的重新思考》(EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks)中,论文作者通过平衡神经网络的深度、宽度、图片分辨率,再通过找到平衡点、并把底层卷积改变之后,找到了大幅减小参数数量的方法,与此同时准确度也得到提升。
卢涛认为,这是未来的代表方向之一。

2020 年上半年,微软机器学习科学家 Sujeeth Bharadwaj 分享了 IPU 演习 CXR 模型的卓越性能,IPU 在运行微软 COVID-19 影像剖析算法 EfficientNet 和SONIC 时表现亮眼,在 30 分钟内完成了英伟达传统芯片需 5 个小时的演习事情量。

图 | 微软用IPU和GPU演习用于新冠算法模型的比拟

从 Graphcore 的角度来看,不管是 CPU 还是 GPU,都不是针对 AI 运用而生。
CPU 是标量处理器,它紧张做仿照性判断,用于帮助程序员针对固定模式进行编程。
CPU 特殊适宜的架构是通过大量的仿照处理器开拓手机 App 和外经办事器。
GPU 是针对图像处理而生,比较 CPU 来说 GPU 在并行度和向量机上都有很大提升。

概括来说,GPU 紧张运用在主流 AI 平台,它并不是为 AI 而生的处理器。
Graphcore 进行大量剖析后创造,AI 打算具有高度并行、低密度打算等特点,不管做图像处理模型、还是措辞处理模型,都会在底层表达成一个打算图。
卢涛认为,真正面向未来的 AI 处理器,必须是针对打算图来进行处理,而 Graphcore 的IPU 正是以打算图为核心的智能处理器。

三项变革性技能:打算、数据、通信

进入中国后,Graphcore 一贯努力靠近开拓者,卢涛在 9 月 19 日中关村落论坛的演讲结尾,特意提到该公司在中文网站 graphcore.cn、微信和知乎的开拓者创新社区,并鼓励更多开拓者来到上述平台,获取 Graphcore 的资源和支持来进行创新。

对此做法,他阐明称,Graphcore 希望将权利移交给创新者。
那么,首先要给创新者供应新的平台,让他有新的可能性。
如果开拓者的算法不适宜 GPU,并不一定代表你的算法无效,而是你须要一个新平台。
基于此,Graphcore 供应了非常前辈的AI 处理器、以及大规模 IPU 集群系统。

2020 年 7 月 15 日,Graphcore 发布基于 7nm 的第二代 IPU 处理器——GC200,以及用于 Mk2m IPU 和 IPU 系统产品的技能:打算、数据、通信。

图 | GC200(来源:Graphcore)

GC200 基于台积电 7nm 工艺,有 594 亿个晶体管,是当前单一芯片最大规模的处理器。
GC200 仍旧延续了第一代的“同构众核”架构,所不同的是,制造工艺从16nm,提升为最新的 7nm。

GC200 的处理器片上存储也从 300MB 提升到 900MB,晶体管数量超出英伟达2020 年 5 月发布最新旗舰 A100。
GC200 的处理器核心从上一代的 1217 提升到1472,能实行 8832 个单独的并行线程,系统性能提升 8 倍以上。
在数据处理方面,GC200 延续之前的高带宽高容量表现,这对付应对一些繁芜 AI 模型及算法很有帮助,官方表示它可支持具有数千亿个参数的最大模型。

此外,Graphcore 还首次提出 IPU-EXCHANGE-MEMORY,这是一种交流式的储存架构。
Graphcore 在 M2000 每个 IPU-Machine 里面通过 IPU-Exchange-Memory 技能,供应了将近超过 100 倍的带宽以及大约 10 倍的容量,这对付很多繁芜的 AI 模型算法是非常有帮助的。

针对 AI 打算集群,Graphcore 打造了 IPU-Fabric 技能,这是为 AI 横向扩展而生的通信技能,它的优点是弹性大、低时延。
有了 IPU-Fabric 之后,用户可以轻松构建出高弹性低时延的打算平台。
M2000 是 Graphcore 推出的基于 GC200 的刀片型做事器,每片能供应 1PetaFlop 的算力支持。
M2000 可以被看作是 Graphcore IPU 系统产品支配的最小单元,基于它可以很方便地创建各种规模的集群。

图 | IPU-Fabric(来源:Graphcore)

Graphcore 协同 IPU 从零打造了一个以图为抽象编程模型的软件 Poplar。
通过这套软件 SDK,不管是利用浪潮还是戴尔的做事器,更或者是利用单个 M2000 以及大规模打算系统 IPU-POD,Graphcore 都能利用同一套软件进行编程。

Graphcore 还在 Poplar 层面上,供应了很多软件库。
以ML框架为例,其可以支持标准的 PyTorch、TensorFlow 与 ONNX 等。
同时,Graphcore 认为,对一个别系而言,运维和管理也非常主要。
为此,Graphcore 基于开源做了集群管理套件。

在全体处理器研发过程中,Graphcore 认为开放非常主要。
卢涛表示,开源是由于创新须要对底层有很多可见度。
Graphcore 认为要把权利移交给开拓者,并于2020 年 7 月开源了所有的打算图库源代码和机器学习算法模型。

在构建社区方面,Graphcore 在金山云上构建了一个开拓者云,其紧张面向商业用户、高校、科研机构和个人研究者。
卢涛表示,这一且都是为了帮助创新者,可以在在机器智能中实现下一波打破,以及帮助用户实现在 CPU、GPU 上没有办法实现的创新。

Graphcore 至今成立了四年多的韶光,期间已得到红杉成本的支持,也得到了宝马、博世、微软、三星、DELL 等企业的投资。
经由几年的发展,Graphcore 已经发展为遍布环球的机构。

对付加入中国,该公司创始人奈杰尔·图恩(Nigel Toon)表示:“有远见的中国公司已经开始动手布局自己在 AI 领域的蓝图。
大概这便是为什么 Graphcore 在中国找到了激情亲切,并如此深度的参与。
Graphcore 已经开始为一些颇有建树的中国公司供应技能支持,并将助力推动中国那些发展最快、最具创新性的 AI 初创企业。

卢涛也对 DeepTech 表示,中国的企业非常善于把创新进行大批量的快速落地支配,Graphcore 以为中国是最大的市场之一。
在快速落地支配中,Graphcore 也可以进一步打磨自己的产品。
此外,IPU 也能帮助用户开释出更多潜能,本日在CPU 和 GPU 上做不好的事情,在 IPU 上可能会开释极大潜力。

相关文章

樊篱机房壳体龙骨安装焊接_屏障_机房

屏蔽壳体安装遵照地面、墙面,顶面顺序进行施工,地面龙骨分主龙骨和副龙骨,将他们焊接成600mm600mm大小的框架组合体,然后在框...

科学 2025-01-19 阅读0 评论0