彷佛只要参加 AI 芯片干系的会,一定会有人提 AlexNet 创世纪般的存在,也一定有人提 OpenAI 在 2018 年年中发布的《AI 与打算》剖析报告[1]。由于里面说,从 2012 年至今,最大型的 AI training 打算量每 3.4 个月就会翻一倍——以是到 2018 年实际已经涨了超过 30 万倍。如果按照摩尔定律两年翻番来算,那么实在,2012-2018 年理论上芯片性能只能涨 7 倍。
看看,“只能”涨 7 倍,CPU 是该当哭一哭的——虽然实际上就摩尔定律,这里援引的数据都不准确,人家也不是说性能翻番不是?当然了,这些都不主要。重点在于,AI 算力需求这些年大幅攀升。
AI 芯片是某一类专用芯片

觉得这大半年我都在客不雅观上磋商一件事,在刚进入 EE Times 不久,就看到 MIT 2018 年出的一篇 paper。这篇 paper 也在我这大半年写的文章里,被反复提及,题为《通用技能打算机的衰落:为何深度学习和摩尔定律的闭幕正致使打算碎片化》。在整体不雅观点上,这篇 paper 实在还十分有趣。几个月前,我把这篇 paper 的不雅观点做了浓缩和重构,再加了一些额外的料,构成了一篇《深度学习的兴起,是通用打算的挽歌?》。
各位有兴趣可以去看一下,这篇文章真的细节动人、论据充分、不雅观点光鲜、语句畅通......这里再总结一下,实在不雅观点很大略,便是既然 CPU 现在性能涨幅这么小,工艺节点都难推进,那这条路差不多就快走完了;然鹅,还有专用打算这条路啊:便是针对不同的运用处景,咱们开拓专门的芯片,量身定制、相机行事:这样的话就能做到性能持续大幅攀升,与此同时效率高、功耗还大幅降落。
实在论证这个不雅观点的过程还是非常有趣的,比如说谷歌 TPU 涌现了,便是专用芯片的最佳例证,它就真的只能做一件事。
这篇 paper 看起来美好而高等、优雅而低调。不过在随后事情的韶光里,我基本上是在花全部的韶光,考试测验听取行业内的参与者们是否赞许这一点。很遗憾的是,险些我听到的绝大部分声音,都在彻底否定这个论调。有关这一点,实际还可以从 1 月份即将发行的《不雅观点》杂志,我的文章《AI芯片专用好还是通用好?遥想20年前GPU也面临这一决议》中看到比较详细的论述。这里就不提太多了(下个月就和大家见面哟)。
绝对专用芯片也便是 ASIC,的确效率高、算力也高。但它实际受到两个巨大问题的影响:
第一是本钱
这是个看起来非常废话的缘故原由。像 CPU 这种全银河系通用、只在大麦哲伦星系不通用的芯片,你在上面干什么弗成啊?都可以,装个 Windows,然后跑个虚拟机,还能装 macOS,写文档、做设计、修图、剪视频、炒股票,各种软件都能跑,医疗、交通、政府、金融,咱都能干。乃至,如果你一定要跑 AI 任务,CPU 实在也可以干。
以是 CPU 的特点,就决定了,这一类产品是全局适用的。它的销量非常大,渗透在人类生活的方方面面。以是即便新制程的设计和工艺本钱都在指数级攀升,造个工厂花几十亿美金才可以——未来还要更多。不过这么昂贵的制造本钱,实际能够消受得起的产品类型就不多。到最详细的产品上,手机、PC 都是可以承担这个本钱的,由于它们每年的销量特殊大,单 iPhone 一年就卖超过 2 亿台...每个手机、PC 至少都须要 CPU 才能跑得起来。CPU 有充足的量来摊薄设计与制造本钱(实际情形比这还要繁芜一些,还是推举各位去看[2]这篇文章)。
而专用芯片是完备不具备这种本钱摊薄特性的:由于它只针对某一个领域。绝大部分特定领域都不具备走量来摊薄最前辈制程工艺本钱的能力。比如汽车,这是个看起来十分弘大的市场了,但环球销量最好的车型,年销量也不过区区两三百万——这个量对一个车型就一颗专用芯片的设计和制造本钱而言,实在不是个划算的数字——采取最前辈制程则险些是没有可能的。
当然,汽车专用芯片仍旧可以考虑用本钱更低、更早的制程来造芯片(以及某一颗芯片用在大量车型上)——这也是现在绝大部分专用芯片的常规方案。不过当“专用”芯片所覆盖的市场容量本身就不大,以及可能比汽车市场还要小很多的时候,尤其是很多 B 端市场——天花板是明摆着的,又靠什么来抵消芯片设计与制造本钱?
这个问题在 MIT 的那篇 paper 中实则有着非常翔实的论述,个中详细列出了关乎特定市场容量、专用芯片产量、专用芯片相较通用途理器的性能与效率上风有多大,这些变量相互之间是什么样的关系。在知足若何的条件时,专用芯片可以供应更高的本钱效益。
在我更早期撰写的采访文章中,针对 ASIC 制造耗费本钱这件事,我们有一个更准确地认识,即《摩尔定律失落效,FPGA 迎来黄金时期?》[3]。不过这篇采访文章实则忽略了一个主要事实,便是 MIT 提到的上述这几个变量关系。而且专用芯片实在没有必要采取最新的制程,依然可以在性能和能效上碾压通用芯片(或 FPGA)。我在《深度学习的兴起,是通用打算的挽歌?》文中同样浓缩了这部分理论,在文章的第三部分“专用途理器市场过小?”章节内——不过当时为了理解方便,我没有将 MIT 提到的所有变量都放到我的这篇文章中,以是仍旧建议去看 MIT 的原文。
第二是通用性差异
双重标准:通用与性能
CPU 的通用属性就决定了,它在任何一个方面,实在都很难做到精通,或者说针对任何详细运用处景的算力和效率表现实在都一样平常。由于 CPU 须要耗费大量面积来做多层级 cache,微架构前端也很主要,真正的实行单元所占尺寸就那么点。由于 CPU 须要处理各种类型的事情,各种条件分支之类的东西。
但 CPU 的设计和工艺都是具备相称难度的,至少显著难于绝大部分专用芯片。用 GPU 去比 CPU 的 AI 算力,这种比拟的代价显然是不大的。这个中的核心就在于,GPU 实际上本来就算是一种专用芯片。至少从前,GPU 就用于图形打算,它只做这一件事。而且实际在 GPU 出身的更早期,它本来就以 ASIC 的面貌涌现——它从骨子里是一种专用芯片。用 CPU 这样绝对通用的芯片,去比较 GPU 这种专用芯片,又有什么代价?尤其如果你还比较浮点运算能力,那就更奇特了。
不过 GPU 这个类型的芯片,在发展中后期发生了一些很显著的变革。它开始越来越具备通用属性(这个转变缘故原由也可以从《不雅观点》杂志中找),shader 核心这种非固定功能单元的地位越来越主要。即便 GPU 仍旧没有 CPU 那么通用,但 cuda 编程这种东西是现如今人尽皆知的;GPU 的可编程性,或者叫灵巧性变得越来越高。以是 GPU 现在早就不但用于图形打算了。
我们说将 GPU 运用于 AI 打算,不管是云端 training 还是终端 inferencing,实在质都是 GPU 通用属性的某一个方向;AI 打算在 GPGPU 天下里,不过是个中一个组成部分罢了。只不过是由于 AI 打算这个方向实在是潜力太大了,以是 GPU 厂商开始将 AI 打算作为一个着重发展的方向来对待,以及还针对 AI 打算特殊加入了一些专用单元,比如张量核心。
然鹅这个时候,AI 专用芯片华标致地涌现了,比如谷歌的 TPU、比如特斯拉的 FSD(Full Self-Driving Computer),以及一众国内外的 AI 芯片新品。
AI 专用芯片如果专用、固化到 TPU 那样的程度,只针对卷积神经网络,采取 Systolic Array 技能;前述第一个本钱问题之外,它具有的第二个局限性就在于险些没有灵巧性可言。尤其在 AI 算法每个月乃至每周都可能发生变革的情形下,芯片 18 个月开拓周期,当芯片问世的时候,这颗芯片就极有可能已经掉队了。
但我们仍旧不得不承认,AI 芯片在它所善于的任务上,可能具备在效能与算力上大幅领先 GPU 的能力。以是 AI 芯片厂商险些清一色地会在发布会上宣告,自家产品可以吊打某 N 字头企业的 GPU 某明星产品。
这件事,实质上约即是拿 GPU 去和 CPU 比浮点运算能力。而且实际上,AI 芯片比较的“AI 算力”大部分情形下是低精度的,比如很多终端 inferencing 芯片 INT8 打算能力很强——那你怎么不比比双精度?由于你不能做双精度运算?这种比拟是将 GPU 放在通用打算的地位上,用专用打算的 AI 芯片——包括专门设计的 cache 或 HBM、低精度实行单元等——来吊打 GPU。这同样是件没有代价的事情。
不过更故意思的是,GPU 此刻为自己辩驳的办法,大部分是说:我能做的事情更多啊,比 TPU 之流的 AI 芯片能做的事情多太多了,它们那些 AI 芯片就只能做一件事。
这属于范例的双标,在和 CPU 比较时,流传宣传自己 AI 算力赶过一大截;在和 AI 芯片比较时,流传宣传自己更通用。这不是双标吗?
是否存在第三类通用芯片?
实在我花了比较长的韶光去理解,为什么 MIT 的这篇 paper 并不能成立;至少它成立的概率会很低。由于就历史履历来看,它是不对的:当我们参考 CPU 和 GPU 的兴衰史,实在就很随意马虎创造,专用芯片在大部分历史条件下都不会成为主流,而只能成为某个历史期间的特定过渡产品。有关这一点仍旧推举去看 1 月份即将发布的《不雅观点》杂志文章,这在前文已经提到了。
不过 AI 芯片是顺应时期潮流产生的一种芯片类型——除了前文提到的 TPU、FSD 这类相对极度的绝对专用 AI 芯片,当代越来越多的 AI 芯片都已经产生弱编程特性了,就跟当年的 GPU 一样。就连 Arm 的 NPU IP 实则都融入了一定的灵巧性。也便是说,如今有一大批 AI 芯片实际是具备灵巧性或通用性的,它们不但能做一件事,从构造上它还为未涌现的算法做考量。
Graphcore IPU、华为昇腾都在其列。也便是说,AI 芯片在 AI 打算时,不仅效率相较 GPU 更出色,而且它还具备一定的通用性。这实则才是很多 AI 芯片企业在宣扬中提到,在 CPU、GPU 之外,第三类芯片涌现的缘故原由,便是 AI 芯片。它可能将拥有自己的适用领域、迭代周期、开拓生态。未来 CPU、GPU 和 AI 芯片就要成为三条并行的线了。
从运用处景来看,这个不雅观念彷佛是成立的。至少我以为,它比 MIT 说的专用芯片成为未来这一点要靠谱多了。
但我仍旧以为,这种畅想的实现概率也会比较低——至少在云端 AI training 这部分市场,GPU 可能将长期霸占垄断地位,且难以撼动。由于 GPU 不仅具备制程上风(有能力采取最前辈制程的少数派),而且具备开拓生态上风——大量开拓者都乐意投入个中,由于它比较 AI 芯片,具备了先天的生态根本,且发展多年。GPU 开拓生态上风巨大的程度在从上至下、上天入地、贯彻电子科技行业,GPU 是无处不在的。
当开始拼开拓软件栈的时候,一场全新的厮杀战就要上演了。某种芯片进入可编程时期,经营这类芯片的公司就不但是一家芯片公司了,它对软件人力物力的投入极有可能大于硬件,以 1:10 的硬件、软件工程师比例存在于世。这个时候,企业和行业都会变得越来越弘大。在行业整体代价的复合年增长率无法知足企业的本钱投入攀升时,市场会逐渐步入寡头时期。GPU 市场便是如此发展至今的。
某 N 字头企业在如今的 AI training 市场已经霸占了绝对统领地位,这种地位的不可撼动性就表示在开拓生态的绝对上风上。且其发展履历积累,又令其具备了充足的成本上风可持续完善这个闭环生态,从软件到硬件。这就不是哪家 AI 芯片厂商随便比拟一下性能、能效足以完事儿的了。生态上风可以彻底忽略性能、能效的那点差别,尤其当这种性能、能效差别并没有数量级差别时。
以是,很多 AI 芯片初创企业畅想中的第三类芯片究竟能不能成立,或许要打一个问号。
好了,本文的 YY 差不多就到这里了。很多时候,历史履历是没有任何代价的,尤其我们说“详细问题详细剖析”的时候,每一个事宜的发展过程都有其分外性,那些依据历史履历做推断的过程,实质上都是在胡说八道;在新事物面前,统统规律总结都只是在博君一笑——比如上面说的这么多东西。比如在终端小型 inferencing 现场,AI 芯片是能够长期发挥代价的,这仍旧可以匆匆成生态的持续反向完善。
不过至少,AI 芯片用自己的标准去和 GPU 比算力,GPU 又用自己的标准去和 CPU 比算力,同时还流传宣传自己比 AI 芯片能做更多的事,实质上都是耍泼皮。
作者:欧阳洋葱
来源:面包板社区
(原文标题:AI芯片说自己性能比GPU好,GPU说自己性能比CPU好,这不是耍泼皮吗?)
‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ END‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧