日前,在斯坦福大学举行的IEEE Hot Chips研讨会上,创业公司Cerebras推出了有史以来最大的芯片。按照他们的说法,这个大致是硅晶片尺寸的系统旨在将AI演习韶光从几个月缩短到几分钟。
这是自二十世纪八十年代Trilogy Systems任务失落败以来,业界再一次涌现对晶圆级处理器的商业考试测验。
下面,我们来谈一下有关这个芯片,你必须知道的六点::
数据
作为有史以来最大的芯片,Cerebras的Wafer Scale Engine(WSE)自然带有一堆最高级的。这是当中的一部分:
尺寸:46,225平方毫米。这大约是一张信纸大小的纸张的75%,但却是最大GPU的56倍。
晶体管:1.2万亿。Nvidia的GV100 Volta仅为21亿。
处理器核心:400,000。而GV100只有5,660。
内存:18千兆字节的片上SRAM,大约是GV100的3000倍。
内存带宽:每秒9 PB。据Cerebras称,这是我们最喜好的GPU的10,000倍。
你为什么须要这个怪物?
Cerebras在其白皮书中提出了一个非常好的案例,为什么这么大的芯片故意义。
基本上,该公司认为,演习深度学习系统和其他人工智能系统的需求已经失落控。该公司表示,演习将涌现一种新模式——创建一个这样的系统,那便是一旦经由演习,就可以识别人或赢得Go游戏。但这在过去须要花费数周或数月的韶光,并耗费数十万美元的打算韶光。这个本钱意味其实验的空间很小,这会扼杀新的想法和创新。
这家公司的答案是,全天下须要更多,更便宜的演习打算资源。而演习也须要几分钟而不是几个月,为此,您须要更多内核,更多靠近这些内核的内存,以及内核之间的低延迟,高带宽连接。
这些目标将对AI行业中的每个人造成影响。但是Cerebras也承认,这个想法推向了它的逻辑极度。一块大芯片为处理器内核和须要依赖它的内存供应了更多的硅片面积。只有当数据永久不必离开芯片上的短而密集的互连时,才能实现高带宽,低延迟的连接。因此这也是他们打造这样一个大芯片的缘故原由。
在这400,000个内核中有什么?
根据该公司的说法,WSE的内核专门用于人工智能,但仍旧具有可编程性,那就意味着该芯片并不会仅仅被限定在AI当中。这便是他们所谓的稀疏线性代数(Sparse Linear Algebra:SLA)核心。这些处理单元专门用于“人工智能”事情的“张量”操作,但它们还包括一项减少事情的功能,特殊是对付深度学习网络。据该公司称,深度学习演习集中所有数据的50%至98%为zero。因此,非零数据“Sparse ”。
SLA核心通过大略地不将任何东西乘以零来减少事情量。内核具有内置的数据流元素,可以根据数据触发打算操作,因此当数据碰着零时,不会摧残浪费蹂躏韶光。
他们是怎么做到的?
Cerebras弘大的单芯片背后的基本理念已经存在了几十年,但它也是不切实际的。
早在20世纪80年代,并行打算的先驱 Gene Amdahl就制订了加速大型机打算的操持——硅片大小的处理器。换句话说,便是将大部分数据保留在处理器本身而不是将其通过电路板推送到存储器和其他芯片。这样的打算将更快且更节能。
借助从风险投资家手上拿到的2.3亿美金,Amdahl创立了Trilogy Systems,并实现了他的欲望。但我们不得不承认,“晶圆级整合”的第一次商业考试测验是一场灾害,据当时宣布,它成功地将动词“to crater”引入金融新闻词典。
最基本的问题是芯片越大,良率越差。从逻辑上讲,这该当意味着晶圆级芯片将无利可图,由于您的产品总会存在毛病。Cerebras的办理方案是添加一定量的冗余。据EE Times称,Swarm通信网络具有冗余链路,让产品事情时可以绕过受损核心。据透露,当中大约有1%的核心是备用的。
Cerebras还必须办理一些关键的制造限定问题。例如,芯片工具设计用于将其特色定义图案投射到相对较小的矩形上,并在晶圆上完美地反复进行。由于在晶片上的不同位置铸造不同图案的本钱和难度,仅此一点就会使许多系统不能构建在单个晶片上。
但WSE就像一个范例的晶圆,完备由相同的芯片组成,就像你常日制造的一样。最大的不同之处在于他们与台积电互助开拓了一种方法,用于在芯片之间的空间建立连接,这个区域称为scribe lines。而这个空间常日留空,由于芯片沿着那些线切割。
根据Tech Crunch的说法,Cerebras还必须发明一种方法,为芯片供应15千瓦的电源和冷却系统,并创造新的连接器,以便在加热时处理它扩展的办法。
这是制作晶圆级打算机的唯一方法吗?
当然不是。例如,加利福尼亚大学洛杉矶分校和 Illinois Urbana-Champaign的团队正在研究一种类似的系统,该系统也构建了裸处理器并进行了测试,并将它们安装在已经图案化所需的密集互连网络的硅片上。这种称为硅互贯串衔接构的观点许可这些小芯片紧密相连(相隔100微米),这就使得芯片间通信靠近单个芯片的特性。
“这是我们一贯在进行验证的研究”,伊利诺伊大学的 Rakesh Kumar说。
Kumar认为硅互贯串衔接构方法与Cerebras的单片晶圆级方案比较具有一些上风。首先,它许可设计师稠浊和匹配技能,并为每个技能利用最佳制造工艺。单片方法意味着为最关键的子系统逻辑选择最佳的制程,并将其用于存储器和其他原件,纵然不适宜它们。
Kumar建议,在这种方法中,Cerebras可以限定它可以放在处理器上的内存量。“他们在晶圆上有18千兆位的SRAM。大概这对本日的某些型号来说已经足够了,但来日诰日和后天的型号呢?“
什么时候出来?
据“财富”杂志宣布,Cerebras9月份将会向客户发货首批系统。据EE Times称,部分系统已经收到原型。该公司操持在11月的超级打算大会上公布完全部系的结果。
点击文末阅读原文,可阅读英文原文。
免责声明:本文由作者原创。文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。
本日是《半导体行业不雅观察》为您分享的第2044期内容,欢迎关注。
半导体行业不雅观察
『半导体第一垂直媒体』
实时 专业 原创 深度