首页 » 智能 » 造出比盘子还大年夜的AI芯片这家估值300亿元的硅谷公司要寻衅英伟达丨焦点分析_芯片_英伟

造出比盘子还大年夜的AI芯片这家估值300亿元的硅谷公司要寻衅英伟达丨焦点分析_芯片_英伟

雨夜梧桐 2024-12-19 17:10:58 0

扫一扫用手机浏览

文章目录 [+]

编辑丨邱晓芬

据The Information,硅谷芯片公司Cerebras Systems正于近期递交上市申请。
这家公司成立于2015年,累积融资7.2亿美元,估值飙升到42亿到50亿美元。

造出比盘子还大年夜的AI芯片这家估值300亿元的硅谷公司要寻衅英伟达丨焦点分析_芯片_英伟 造出比盘子还大年夜的AI芯片这家估值300亿元的硅谷公司要寻衅英伟达丨焦点分析_芯片_英伟 智能

值得把稳的是,这家公司背后,与OpenAI的造芯布局和中东公司的AI野心都有关联——Cerebras最大的投资人之一是OpenAI的首席实行官Sam Altman。
而Sam Altman此前曾多次前往中东募资造芯,曾有传闻称其募资额7万亿美金。

造出比盘子还大年夜的AI芯片这家估值300亿元的硅谷公司要寻衅英伟达丨焦点分析_芯片_英伟 造出比盘子还大年夜的AI芯片这家估值300亿元的硅谷公司要寻衅英伟达丨焦点分析_芯片_英伟 智能
(图片来自网络侵删)

巧合的是,Sam Altman当时洽谈的阿联酋科技公司G42,目前也正与Cerebras进行成本互助和技能互助。

这家公司最独特的地方在于,他们的芯片和主流的英伟达GPU大相径庭。
过去,芯片在摩尔定律的牵引下,越做越小,以英伟达H100为例,814平方毫米的核心面积上有800亿晶体管。

而Cerebras的AI芯片,则选择将一整张芯片越做越大,号称“造出了天下上最大面积芯片”。
据先容,Cerebras开拓的WSE 3芯片由整张晶圆切割,比盘子还大,须要人用双手捧起来。
一张WSE 3芯片,在46000多平方毫米的核心面积上,有40000亿晶体管(是H100的50倍)。

比盘子大的芯片,须要用双手捧起来。
图源Ars Technica

为什么要做得这么大?

或许是为了知足演习AI大模型所需的巨大算力。
Cerebras流传宣传,他们的芯片可以演习的 AI 大模型规模,比目前业界顶尖大模型(如 OpenAI 的 GPT-4 或者Google的 Gemini)还要大10倍。

当下,AI大模型参数和性能的迅猛膨胀,演习AI的芯片算力却快跟不上了。
随着摩尔定律放缓,英伟达GPU采取多卡互联的办法,堆叠显卡,来提升算力。
纵然英伟达GPU针对AI演习做了优化,但GPU毕竟是通用芯片,而非AI专用芯片。

英伟达GPU了霸占AI芯片的大半市场份额,但举目望去,专用AI芯片已经发展了至少十几条技能路径,英伟达有不少年轻对手。
个中Cerebras的超大面积芯片,试图在技能上,大力失事业。

如何把芯片做得比盘子还大?

众所周知,英伟达GPU原来是图形处理器,善于并行处理多个大略打算,由于演习AI也须要同时对所有数据样本实行相同的操作,GPU后来也用于演习AI。

不过,GPU毕竟不是专为AI设计的芯片——GPU须要用PCIe的办法连接电子组件,在组件之间传输数据,这限定了芯片的大小、连接类型,乃至通信标准。
此外,做事器机箱的标准又限定了冷却功率,冷却功率限定了芯片的功耗,功耗又限定了演习AI模型的速率。

在层层的限定之下,若要将演习速率提高上百倍,须要从根本上重新思考处理器之外的更多方面,包括系统架构、核心设计、内存架构、通信构造、芯片 I/O、电源和冷却根本举动步伐、系统 I/O、编译器、软件工具链等等。

这也是为什么Cerebras公司的全称是Cerebras Systems——该公司考虑的是直接颠覆掉英伟达过往的既定思路,重新设计一全体AI芯片系统。
从产品上看,Cerebras的 AI芯片最大的特点是,不仅芯片大,配套的散热系统也是前所未有地大。

不过,一味把芯片做得比盘子还大,这是噱头还是实力?Cerebras的技能路径有什么优缺陷?

目前,天下上绝大部分芯片是将晶圆切割成多块,再封装成小块的芯片。
以英伟达的抢手货H100为例,一张12英寸的晶圆,光刻机可以刻出86块旁边的核心逻辑芯片。

而Cerebras是将一整块晶圆做成芯片,直接把光刻机刻出的80多块晶片拼在一起,去掉边角料,晶片之间连接成一块大芯片。
因此,Cererbras的芯片也称为“晶圆级引擎”。

Cerebras选择将晶片直接原地放在晶圆之内连起来,能让晶片之间直接连接通信,而非GPU那样要在不同块GPU之间通过数据导线来通信,加快了芯片核心之间的通信速率。

如此一来,便达到强大的打算性能。
据Cerebras官网信息,WSE-3芯片的单个处理器上就有90万个AI核心,是英伟达H100的52倍;片上内存达到44GB,是H100的880 倍。

Cerebras将一整块晶圆上的晶片连接一起。
图源:HPC Wire

在GPU这类传统构架中,存储是共享的,每一个打算核心没有专门的存储空间,存储空间的数据吞吐能力随意马虎跟不上打算单元的需求量。

打个比方:当池塘子大,但是水管小时,水管吞吐随意马虎涌现不及时的问题,导致池子里的水(算力)就会被闲置,来回搬运数据也会耗时、耗功率。

Cerebras的技能上风在于,通过重新设计打算核心的构造,给每个打算核心配备了带宽足够大乃至有冗余的存储单元,如此实现了分布式的存储和打算(不同于GPU中计算单元共享存储单元)。
相称于,每个核心都是一个单独事情的工人。

据Cerebras官网信息,在WSE-3芯片上,片上存储的总带宽达到21PB/s,互联网络总带宽达到214PB/s,这样就没有数据搬运时带宽不敷的问题。

Cerebras的芯片被美国能源部下属的阿贡国家实验室采取,自2020年以来一贯用于COVID-19研究和癌症肿瘤研究。
据HPC Wire宣布,在用Cerebras芯片演习模型来预测癌症药物反应中,与 GPU 基线比较,在 Cerebras芯片上实现了数百倍的加速。

不过,这样力大砖飞的芯片设计,看起来很美好,但也有自己的弱点。

第一是良率低。
以英伟达H100芯片为例,纵然是台积电这样的业内俊彦,4nm制程芯片达到80%良率已经是顶尖。
考虑到80%的良率以及切割损耗,一张12寸晶圆上刻出的86块旁边的晶片,末了达到良率的晶片是65块旁边。

显然,Cerebras想让一整块晶圆上切割出的80多块晶片都能用,但难度也会高很多。
对付主流芯片来说,一整张晶圆上的一小块晶片做失落败了,其他晶片还能用。
但对Cererbras这样的芯片来说,难道一张晶圆上任何一个晶片有缺陷,一整张晶圆都要放弃吗?

Cerebras的办理办法是,当一个晶片涌现有缺陷的打算核心时,会让AI软件在运行时绕过有缺陷的打算核心,而是用冗余的打算核心。

Cerebras流传宣传,通过这种利用冗余来绕过毛病的设计,其WSE 2芯片实现了100% 的良率。
这也是为什么Cerebras的高管强调,“冗余是你的朋友(Redundancy is Your Friend)。

Cerebras高管在公开演讲中强调“冗余是你的朋友”。
图源:Cerebras Systems Youtube频道

第二个弱点是,须要弘大的散热系统。
当芯片的面积增加,有更多的电流流过晶体管,半导体电阻自然会产生更多的热量。
如果热量过高,还会分解芯片及其表面的小部件。
英伟达的Blackwell GPU数据中央中,都须要巨型的冷却系统。
而Cerebras的巨无霸芯片,更是须要重新设计一套弘大的的散热系统。

Cerebras做事器的散热系统像一个弘大的怪物:几根硕大的黄铜管都是用来连接水泵来散热的。
管道、泵、风扇和热交流器等要占用大量空间。

只管芯片本身只有 21.6平方厘米,且非常薄,但外壳散热系统须要霸占标准机架约三分之一的体积。
专门的散热系统也意味着,支配芯片须要额外的配套本钱。

因此,Cerebras虽然把芯片做得比盘子还大,确实在技能上力大砖飞,但是支配所需的整体本钱不一定具有性价比,这种创新的路径还需后续经由市场验证。

隐蔽着Sam Altman的造芯野心

英伟达芯片帝国之外,AI芯片的技能路径浩瀚,Cererbras力大失事业的路线还是看点,市场上也已经用钱给他们投票。

目前,这家公司已融资7.2亿美元,估值约为42亿到50亿美元,个中,最大的个人投资者之一是OpenAI的首席实行官Sam Altman。
据宣布,Sam Altman参与了Cerebras 的8000万美元D轮融资。

毕竟,Sam Altman曾流传宣传要花7万亿美元造AI芯片(虽然后来他澄清这不仅仅是造芯片的用度,而是环绕芯片的房产、数据中央电力、芯片制造等的总体用度)。
Sam Altman多次前往中东,与包括阿联酋政府在内的投资者进行会谈,寻求募资,操持提高天下芯片制造能力。

在Sam Altman和他所投资的Cerebras芯片公司之间,还与一个中东公司G42关系密切。
G42是位于阿联酋都城阿布扎比的科技巨子,开拓人工智能技能,同时对外投资。
Sam Altman的中东之旅常常会拜访G42,OpenAI也在2023年10月与G42签订了互助协议。

G42与Cerebras一贯互助密切。
G42是Cerebras的客户、投资者、技能互助者:2023年7月,G42签约向Cerebras投资9 亿美元,Cerebras为这家阿联酋公司G42在美国建造九台人工智能超级打算机;2023 年 8 月,Cerebras和G42的子公司共同推出了大型措辞模型Jais。

G42与中国也有渊源。
其创始人肖鹏在中国出生,曾在美国接管教诲,后来放弃美国国籍,成为阿联酋公民。
G42的基金在过去两三年投资了很多中国科技公司,包括字节跳动。
但今年2月,受美国政府施压,G42撤出此前在华的所有投资。

不过,Sam Altman的造芯布局远不止于Cerebras,而是更加伟大。

第一是与芯片大厂互助,特殊是英伟达GPU之外的大厂——不把鸡蛋放在一个篮子里。
去年12月,AMD推出AI芯片MI300X,OpenAI就下了订单。
此外,OpenAI表示在其一款名为 Triton 的软件产品中支持 AMD GPU。

对外投资也是重头戏。
早在2018年,Altman就个人投资了一家名为Rain AI的AI芯片初创公司,自掏腰包100万美元。
Rain AI采纳的AI芯片路径是NPU(神经处理单元或类脑芯片)。
2019年,OpenAI签署了一份意向书,斥资5100万美元购买Rain的芯片。

除了对外投资,Sam Altman对付OpenAI的自研芯片也一手抓。
6月9日,称,OpenAI大力从谷歌TPU团队挖角人才,来发展自研芯片。
OpenAI操持将目前仅有数人的芯片团队扩展至数十人,且险些所有新招募的研究职员均为谷歌TPU团队的现任或前任成员。

Altman的造芯野心不仅于此,他乃至想创建一个新的芯片项目「Tigris」——横跨几大洲,联合阿联酋的G42和日本软银等公司,拉拢台积电、三星和英特尔等顶级芯片制造商,建成覆盖环球的制造工厂网络。

据宣布,早在Sam Altman去年11月戏剧性地被OpenAI开除之前几周,他就前往中东募资,已与软银集团公司、沙特阿拉伯公共投资基金(PIF)、穆巴达拉投资公司等公司就这些合伙企业进行了会谈,寻求数百亿美元的资金。

Cerebras这家略显小众的技能路线的公司上市,既是对英伟达GPU护城河的一个寻衅,也是Sam Altman在英伟达GPU垄断之外建立新的AI芯片格局的一步。

作者卡片

end

标签:

相关文章