清华大年夜学魏少军教授：什么是真正的通用人工智能芯片？

文章目录 [+]

7 月 1 日，随着议程进入到第三天，本次 CCF-GAIR 大会也不才午迎来了堪称压轴的 AI 芯片专场。
担当 AI 芯片专场主席的，是中国电子学会电子设计自动化专家委员会主任委员、清华大学微电子研究所所长魏少军教授；在担当主席之外，魏教授还为 AI 芯片专场带来了一场干货满满的大会报告《从 IA 到 AI，我们还要走多远？》

在报告中，魏教授引用人工智能专家 Michael I. Jordan 的不雅观点认为，我们本日所做的还不能算是真正的 AI（Artificial Intelligence），只是利用技能来增强某一方面的智能而已，也便是所谓的增强智能（Intelligence Augmentation，简称 IA）。
究其缘故原由，是由于当前的人工智能算法远远没有达到人们的哀求，详细来说，现有的算法过于单一，无法实现类似于人脑的高度繁芜又高度灵巧的互联结构系统。

清华大年夜学魏少军教授：什么是真正的通用人工智能芯片？｜CCF-GAIR 2018_芯片_软件科学

魏教授指出，我们目前要实现人工智能，别无选择，只能靠芯片；但是现有 CPU、GPU、FPGA 等芯片的基本架构早在这次人工智能打破之前就已经存在了，并不是为人工智能而专门设计的，因此不能完美地承担实现人工智能的任务。
人工智能对芯片的哀求，除了足够的算力和极高的能效比，还须要一个高能效、通用的打算引擎。
由此，魏教授认为 AI 芯片至少应有以下几个特质：

第一，它的可编程性，要适应算法的演进和应对多样性；由于算法不稳定，它在不断变革；

第二，架构动态可变性，要适应不同算法；

第三，高效的架构变换能力，由于不同的运算哀求变换不同的架构。

随后，魏教授从硬件可编程和软件可编程的角度，将芯片的性子分为四个种类，并认为目前少有人关注的软件定义芯片（SDC）在 AI 领域最有潜力；它一方面具备 CPU 的灵巧性，另一方面是专用集成电路的高能量效率和高集成度。
它的软件和硬件均可编程，稠浊颗粒度，最主要的是芯片功能随软件变革而变革；在利用中也不须要芯片设计知识。

魏教授表示，芯片要实现智能化，不能光有硬件，一定要有哀求很高的软件——自主学习的能力、形成知识和履历的能力、持续改进和优化的能力、再生和组织能力、思维逻辑推理能力、作出精确判断和决策能力，这是软件才能完成的，而非硬件。

基于这个理念，魏教授提到了他以是为的真正软件定义芯片。
也便是：

一个真正空想的打算该当是软件和硬件的架构千篇一律，软件是什么样的拓扑构造，硬件就该当是若何的拓扑构造；软件须要什么样的运算，硬件须要存在这样的运算资源。
可惜的是，软件可以很大，硬件不能大；我们只好把软件分块，跟硬件大小一样。
比如把它分为 6 块，根据数据依赖关系把第二块、第三块、第四块放进去……一贯到第六块。
这哀求我们硬件必须随时改变其功能，硬件功能和架构能够动态地按照软件实时进行改变，这是我们所说的软件定义芯片。

魏教授表示，上述观点虽然听起来大略，但实现起来是一个非常困难的过程，而他自己的实验室也是经历了 12 年的努力终于得到实现（该研究成果由清华大学 Thinker 团队已经在干系国际会议上发布，可查看雷锋网干系宣布）。
通过这一全新架构，可以用来实现可重构神经网络；也便是说，通过 AI 运用定义我们所选用的深度神经网络，改变芯片架构和功能——魏教授表示，如果能做到，那么这种芯片将成为真正的通用人工智能芯片。

末了，针对近段韶光以来中美芯片领域的”吓尿体“和”被吓尿“之类的声音，魏教授认为我们应该在承认与美国半导体行业差距的同时，也要看到我国在软件定义芯片领域的领先地位；而 AI 芯片的创新也只有通过真正的架构创新才能到达顶峰。

在大会报告结束之后，魏教授接管了雷锋网的独家专访。

此前，魏教授曾经提出过这样一个不雅观点：AI 芯片的发展很可能会在未来 2-3 年遭遇一个挫折期；本日的部分、乃至大部分创业者将成为这场技能变革中的“先烈”。
对付这个不雅观点的得出，魏教授表示有两个缘故原由：

一是由于家当发展的特定规律，比如说 Gartner 的发布 Hype Cycle（技能成熟度曲线），目前的 AI 芯片正处于第一个峰值的顶点处，未来两三年将会涌现低落，很多事情的发展都是在经历了热度之后进入到低落期，末了才会进入到运用稳定期。

第二，虽然 AI 很热，但是并没有真正落地。
实际上，并不是所有的技能都一定须要 AI，很多情形下 AI 起到的是增强的浸染；当古人们拥抱 AI，但未来可能会失落望。
以是说，AI 要须要的，是真正的 Killer Application（杀手级运用），每天都离不开的。

至于这里所说的 AI 的杀手级运用，魏教授也给了一些案例，比如说自动驾驶，远程医疗等。
其余，针对 AI 芯片在去年下半年以来的火热状况，魏教授认为这是成本助推的结果，一旦钱烧完，就很有可能涌现问题；而且在成本的逐利本性下，也是难以为继的。

而针对魏教授在报告中提到的 Thinker 团队的干系成果，魏教授表示，目前团队正处于融资阶段，估值也很高；而且一旦进入抵家当界，它所能得到的性能、能量效率、本钱一定远远好于高校的结果。

魏教授强调，Thinker 的通用性虽然很强，但它并非是为了取代 CPU、GPU、FPGA 而来，未来这些不同类型的芯片依然会是长期共存的局势。
就目前的情形来看，Thinker 在家当方向的详细运用处景要取决于工业界的详细状况，不过魏教授认为 Thinker 更方向于端侧运用，由于只有端侧的打破才是 AI 芯片的真正打破。

谈到全体 AI 芯片行业未来的发展，魏教授认为，正如 Intel 的 CPU、英伟达的 GPU 在各自领域霸占统治地位一样，在 AI 芯片领域同样会在未来涌现一个称霸天下的企业——这个企业有希望涌如今中国，而 Thinker 独树一帜，也拥有别人所不具备的优点，因此未必就没有机会。

末了，在复兴事宜引起的舆论尘埃尚未完备落定的大背景下，作为中国半导体行业的领军人物，魏教授也通过雷锋网给出了一个来自中国半导体行业的声音：

首先，复兴事宜还是一个独立事宜。
它反响了中国企业在走向国际市场当中要一定经历一个”必修课“。
纵然这件事不发生在复兴身上，也会在未来某些时候发生在其他企业身上，总之这天夕会发生的，它也让我们的企业意识到走向国际市场的过程中要遵守的规则。
当然，复兴这次的代价的确是大了点。

从外界来看，有些社会舆论一方面把复兴骂得狗血临头，另一方面又认为自己一无是处，对此我是非常不附和的。
这次复兴事宜之后，有些人妄自菲薄地说自己什么都弗成，也有很多”你看过这个才知道中国的芯片有多烂“这样的危言耸听的话题——这些人也陷入到其余一个极度。

那么，中国的芯片到底怎么样呢？

我们认为，跟别人比有差距，但也没有差到那种程度。
实在别人有的我们都有，只是比别人差一点，比如说性能低一点、可靠性差一点，还在逐步的发展过程中，存在一些问题。
再过五年八年十年的时候，很有可能中国的芯片就跟国际水平差不多了。

以是，我们第一不要自己吹牛，第二也不要妄自菲薄；踏踏实实发展，同时也要有信心。
美国之以是那么担心，实质上还是由于忌惮中国在干系方面的发展，否则根本不会予以理会。
中国人要有自己的定力，中国的半导体家当既不像有人说的那么好，也不像有人说的那么差——它还处于发展过程中，我还是充满信心的。

以下是魏少军教授在 CCF-GAIR 2018 上的大会报告内容，雷锋网对其进行了不改变原意的编辑整理。

大家下午好！
很愉快有机会在此跟大家做关于 AI 芯片的沟通和互换。
纯属个人想法，不代表任何人，只代表我自己。

从 IA 到 AI，我们还要走多远？大家知道 AI，恐怕没多少人知道 IA，我们逐步展开谈谈，显然 AI 和 IA 是有关系的。
大概讲几个内容：

一是人工智能技能与人工智能芯片面临的寻衅。

二是架构创新是人工智能芯片得到打破的必由之路，目前有很多人做芯片，如何做芯片的架构，磋商比较少，乃至严重不足。

三是结束语。

人工智能对人类社会的影响非常深远，不管我们是否定可，这件事都发生了。

环球有名咨询企业麦肯锡通过对 300 多家 9 个垂直领域的企业进行案例剖析，覆盖金融、消费、电信、康健、能源和材料、媒体、公共和社会做事、前辈家当和制药等，得出的主要结论是：人工智能将在险些所有垂直领域产生深远影响，并不但是针对某一个领域。

这个结论让我们做芯片的人非常激动，由于人工智能带来的变革和之前互联网、移动互联网等颠覆性技能创新发生的时候有很大的不同点——硬件将霸占超过 50%。
以前，在互联网和移动互联网的主导下，许多学生选择就业首先选金融和互联网；但是在 AI 领域，超过 50% 的科技发展将由硬件主导。

尤其是未来 10 年，人工智能和深度学习将成为提升硅片需求的紧张成分；2025 年，人工智能将推动半导体家当收入超过 600 亿美元，靠近环球半导体发卖的 20%。

我们的半导体 AI 芯片是否做得很好？并不是。
加州大学伯克利分校的教授 Michael I. Jordan 20 天前在美国做过一场演讲，我当时在场，他说“与其说我们本日做的是人工智能，还不如说我们做的是增强智能”。
这句话的意思是说，我们本日所做的还不能算是真正的 AI（Artificial Intelligence），只是利用技能来增强某一方面的智能而已，也便是所谓的增强智能（Intelligence Augmentation，简称 IA）——之以是说 IA，是由于基本人工智能算法远未达到我们的哀求。

这里有两个现实问题：

第一，AI 算法本身在不断的演进，新算法层出不穷。

第二，还没一种算法可以统一面向所有的运用。
每种运用对应一种算法，或者每种算法对应一种运用。
实际上我们的人脑能够做很多事情，但现在人工智能的算法依然是一对一的。

我们说一个基本的感知过程：感知-传输-处理-传输-实行，这是一个基本的逻辑关系。
当然这个中包括多元感知，就像人有眼睛、鼻子、嘴、皮肤；实行时有多种实行；传输也是多样化的，有神经传导、皮肤传导、眼睛传导、声音传导等各种各样的传导，只是中间不知道如何比喻。

实际上，打算、剖析、履历知识和判断等，到本日为止只是用打算机的观点代替，也便是用软件 + 处理 + 存储的办法来进行。

我们想要得出的实在是这样一个繁芜的、智能的系统：它该当是多输出、多输入的系统，该当是高度繁芜又高度灵巧的互联结构，具有多任务且高度并走运算系统、多处理器单元系统、并行分布式存储、并行分布式软件、分布式处理和集中掌握架构等。

实际上，在座所从事的人工智能芯片，绝大多数能够完成的是一种功能，可能两种，最多三种；要想做到像人似的处理 N 种，还差得很远。
而且，人在做决定时不是单个决定，而是同时做多个决定，或者叫多个决策同时做，这是本日人工智能远未达到的；我们并不知道但是人脑如何事情，我们可以用打算的办法实现影象、行动、特色提取、决策等过程。

我们现在只能依据打算，缘故原由在于机器和人脑之间的差别实在太大。

做一个比较。
人的大脑有 140 亿个神经元，传输速率 120 米每秒，事情频率很低，为 200 赫兹；人脑皮层比较大，可以完成每秒钟 10 的 16 次方运算，把大脑皮层放开是四分之一平方米，重量是 1.2-1.6 公斤，功耗只有 20 瓦。

而机器弗成，虽然它在某些事情上可能超越人类，但代价非常大。
比如超级打算机可以用多个芯片实现 10 的 30 次方每秒钟的运算，非常了不起；但它用电传输，每秒钟 30 万公里，事情频率每小时 42 亿次，耗电量是 24 兆瓦。
以是说，机器和人之间的差别很大，机器遇上人还要很远。

我们目前要实现人工智能，别无选择，只能靠芯片。
芯片有很多不同的，目前我们已经有 FPGA、GPU、CPU 等，我们还可以做所谓的类脑打算，乃至可以做内存内打算等。
然而，这些都是已经存在的芯片，它们的基本架构早在这次人工智能打破之前已经存在了，并不是为人工智能而专门设计的，因此不能完美地承担实现人工智能的任务；即便能完成，它是不是最好的，这些问题都值得我们思考。

但是我们知道，打算是根本点，我们须要有一个很好的打算引擎，这是由于我们看到的人工智能各种网络所须要的打算量是巨大的。
比如说，2014 年 VGG19 的打算能力要达到 196 亿次每秒，同时处理大概 1.38 亿个参数，没有足够的算力是做不到的；其次，当我们从云端所谓的演习向终端推理推进时，我们哀求它有极高的效率比，否则终端设备（比如说智好手机）很快没电无法运作。

以是，我们说须要一个所谓高能效、通用的打算引擎，这是必备的条件。
在此条件下，AI 芯片须要有基本特质，我列出如下（可能还不止）：

第一，它的可编程性，要适应算法的演进和应对多样性；由于算法不稳定，它在不断变革；

第二，架构动态可变性，要适应不同算法；

第三，高效的架构变换能力，由于不同的运算哀求变换不同的架构。
我可以断言一句，目前凡是利用指令构造的，都永久无法达到我们的哀求。
我们期待高效率的架构，比如 1W 每秒钟要 10 万亿次运算量。

但是在某些终端运用上来说，你的功耗要小于 1mW，在一个电池用一年不换是基本哀求。
同时，本钱要低，才能够进入家电和消费类电子；体积要小，才能装载在移动设备上；同时还要开拓简便，让所有人不必知道芯片如何设计。

就这些条件来看，CPU + 软件、CPU + GPU、CPU + ASIC 都不是空想架构。

那么，什么是架构？人工智能芯片的架构该当是若何的？在谈人工智能芯片架构之前，我想跟大家回顾芯片发展进程中的干系内容。

首先，我们按照硬件可编程和软件可编程分为四个象限。

第二个象限是硬件处理器，硬件不能动，软件可变革，比如说 CPU、DSP 等。
它们是粗颗粒度的，常日事情在 8 到 64 位，芯片运行时可以软件编程，只须要软件工程师编程就可以了，能量效率和打算效率都不高。

第三象限是软件和硬件都不可编程，ASIC、SoC 等。
它们的特点是多品种、小批量，一旦完成制造就不能改变，也常日不须要软件（有的须要软件，但不是紧张的）；要想利用，须要对芯片有非常清晰的理解。
能量效率和打算效率很高，这是其优点。

第四象限是可编程逻辑，如 FPGA、EPLD。
硬件可编程，但实在是静态编程；细颗粒度，可以定义到每一个 Bit，芯片运行不须要软件（有人说 FPGA 须要软件，实在不是软件，而是定义硬件的描述措辞，以是 FPGA 不须要软件）。
利用它须要芯片支持，能量效率和打算效率不高。

而第一象限，到现在为止很少有人关注——软件定义芯片（SDC），像 RCP、CGRA 等。
它的软件和硬件均可编程，稠浊颗粒度，最主要的是芯片功能随软件变革而变革；在利用中也不须要芯片设计知识，其能量效率和打算效率虽然没有专业集成那么高，但也足够高。

这是一个全新的领域。

CPU 等处理器是通用高灵巧性，但已经进入寡头垄断极度，它须要最前辈的技能，本钱高、价格贵，易受生态环境制约；专用集成电路，专用而无灵巧性，用量足够的情形下才能便宜；FPGA 通用高灵巧性，和 CPU 差不多。
而我们所说的软件定义芯片，它不存在寡头垄断的问题，也并不须要最前辈，够前辈就好，扩大用量可以降落本钱，不存在生态问题；它一方面具备 CPU 的灵巧性，另一方面是专用集成电路的高能量效率和高集成度。

软件定义芯片毕竟是一个新名词，那么下一步该当怎么做？我们不知道人脑如何打算和思考，因此我们只能用打算机进行大概地推理一下。

比如说，我们要有硬件平台，这个硬件平台必须得有高打算能力、多任务并行打算能力、足够的吞吐量、极高的能量效率、灵巧高效的存储、适应动态的事情变革，这是支撑智能的根本。
而芯片要实现智能化，不能光有硬件，一定要有哀求很高的软件——自主学习的能力、形成知识和履历的能力、持续改进和优化的能力、再生和组织能力、思维逻辑推理能力、作出精确判断和决策能力，这是软件才能完成的，而非硬件。

如果有人认为能够硬件上做到这一点，那一定走错路了。
实现智能的核心是软件，以是再进一步看，我们要的是软件定义的芯片——软件变革时，芯片随着变革。
实在，美国人也在做这项事情，比如说美国最近推出的 ERI（电子振兴操持），个中非常主要的便是软件定义硬件，它是作为 ERI 项目中的 6 个子课题之一。

前段韶光，我在旧金山和美国 DARPA（国防高等研究操持局，Defense Advanced Research Projects Agency）的项目经理互换创造，美国之以是要做这件事，正是由于他们看到了软硬结合特殊是硬件可变性成为未来发展的重点；项目上钩划的内容，便是建立一个在运行时可以实时变革的硬件和软件，能够达到专用集成电路的性能，同时对付数据密集型的运算不失落去它的可编程性——这便是软件定义芯片。

对我来说，我非常关注所谓的运行韶光 “At Runtime”，规定 300-1000 NS，0.3-1 微秒，这个变革的速率很慢。

那么，FPGA是软件定义芯片吗？不是。
我把 FPGA 的 10 大毛病重复一遍：

FPGA 细粒度，实现比特级的运算。

配置信息量大，几兆乃至几十兆。

配置韶光长，少则十几毫秒到几十毫秒，乃至要上秒。

静态编程，一旦配置完毕不可变动，改变 FPGA 的功能要下电或者在线重新载入配置信息。

逻辑不可复用，所有电路必须全部装入 FPGA。

面积效率低，每个 LUT 只能实现一位运算，面积效率只有 5%，一个千万门级的 FPGA 只能实现几十万门的逻辑电路。

能量效率低，由于逻辑利用率低引发无效功耗巨大。

须要特种工艺，FPGA 每每须要最前辈的制造工艺，且需对工艺进行特殊调度。

电路设计技能，运用者必须具备电路设计知识和履历。

本钱高昂，几十到几万美元一片。

以是 FPGA 不是我们想要的东西；FPGA 不能当 SdC，不是软件定义芯片。

那么，为什么要软件定义芯片？

举例解释，做芯片设计时，老板常常说“你一定要做差异化的东西，不能跟别人做得一样”；于是就在规格（Specification）上做文章——这是完备缺点的思路，差异化并不是靠规格设计出来的。
这样设计出来的差异化只存在于产品产出的那一段韶光，之后就无法变动；别人追上来，差异化越来越小，你的产品便出局。

一个小孩从婴儿发展为成年人，中间的发展中包括教诲、学习，《三字经》说“人之初，性本善，性附近，习相远”。
为什么芯片不能这么做？

如果我们的芯片可以在利用过程中不断学习，则差异化可以随着韶光的变革而不断加强，这样的芯片才是真正的智能芯片。
现在的做法是演习 + 推理（演习是老师演习，老师利用以前的知识教我们，我们照老师教的办法推理运用），这恰好是人工智能发展的过程；如果我们让芯片做到这一点，我们可以让芯片做得更好。

现在，我来讲一下什么是真正的软件定义芯片。

按照这种思路，我们可以很随意马虎地得到基本架构：我们将划分好的软件通过掌握单元送到所谓的数据通道中，由数据通道来对硬件进行编程；因此，我们的编程结果可以完备适应软件的发展，这哀求我们硬件和软件完备可重构、完备可编程。
这是我们的基本思想。

这样的基本思想与传统的打算架构之间比较，可以看到：

经典的打算构造基本上是冯诺依曼的体系构造，但是对付软件定义芯片而言，它是一个函数化的柔性构造。
传统的架构中，运用适应于打算构造，你要知道打算机构造进行编程，而在我们的构造中，打算适应于运用，这是倒过来的，硬件适应软件。
传统构造中，一个任务只有一个处理软件，不可能编 10 个软件；在我们的构造中，一个任务有多个等效处理软件。
传统打算模式中，硬件和软件不变，但在我们这里，硬软件动态选择性改变。
传统构造中，要高度复用，在我们的构造中，产生冗余运用，这是根本的不同。

但是，我们没有逃离冯诺依曼的体系构造，这是坏事也是好事——坏事是创新不足，好事是打算理论的完全性。

我们利用这个架构来实现可重构神经网络的的基本想法是：通过 AI 运用定义我们所选用的深度神经网络，改变芯片架构和功能。
如果能做到，我们不仅仅适用一种运用，我们可以随着运用不断变革，适用 N 种运用。

这样的芯片是所谓通用的人工智能芯片。

这个基本运算单元有多种不同的能力，我们可以让它做卷积、池化等各种各样的内容。
利用这种办法，我们还可以实现数据通道，完备并行。
这样的结果是，我们可以把大量不适宜硬件做和硬件做得很麻烦的东西，可以一个所谓的 Compiler（不是传统的 Compiler）来实现，大幅度提升效率。

这里有一个结果，它是我们去年获奖的内容。
这个结果是通用 AI 处理器，在 10 兆到 200 兆频率下，4mW-450mW，运算速率达到 1.06-5.09TOPS/w。
其余一个是我们国际会议上宣布过的做人脸识别的，小于 100mW，每识别一个只须要 6 个毫瓦时，比人类的人脸识别率高 1 个百分点。

还有一个是语音旗子暗记识别，包括语音识别和声纹识别，其耗电量只有 200 多微瓦。
《MIT Technology Review》今年年初在一篇专稿中评论了我们的事情，认为这是中国取得的皇冠级别的造诣，一节电池可以用一年多，被认为是天下上耗电量最小的语音识别软件。

我们已经事情了 12 年，这是我们取得一系列的成绩、论文和专利。

末了结束一下。

我们说，大家都在做 AI。
但是 AI 到底是什么？我们该当怎么做 AI？哪些地方到底须要 AI？我们希望 AI 帮助我们办理什么问题？如果不须要 AI 也可以做，为什么要 AI？实在我们没有回答好这些问题。
现在很多运用根本不须要 AI，乃至有人用 AI 做幌子。

什么是我们离开就活不了的 AI 杀手级运用？语音识别和人脸识别都须要 AI 吗？未必，特殊是语音识别很多时候不须要 AI。
当然某些情形下语音识别是有浸染的。
什么样的 AI 是我们每天都须要的？这是我们的关键。

前两年很多人认为自己超过了美国，有很多这样的声音“明年就超过英特尔”“再过 3 年就超过微软”，我把他们称之为“吓尿体”，他们把美国人吓尿了，最近一段韶光，大家都说我们的芯片碰到很大困难，跟前两年不太一样，于是“吓尿体”变成”被吓尿“了。
我们的芯片发展有自己的步骤，我们确实不如美国，但也没有像美国某些人说得那么糟糕。
当然，我们不像某些人说得那么好，我们在发展过程中，不要妄自菲薄。

见告大家一件事：在软件定义芯片领域中，我们现在大幅领先美国。
我的团队提出软件定义芯片技能比美国 ERI 技能早了 10 年，他提出 300-1000 纳秒韶光，只是我们现在实现指标的十分之一，我们的性能比它好多了。
我现在到国外国际会议上，很多人说我们是国际上做得最好的，我们在软件定义上在国际走在前列。

总结来说，AI 技能不断进步，目前差距依然很大；像人类似的同时做出多个判断和决定，这样的算法尚未涌现。
我们现在是 IA，还不是 AI；芯片是我们不可超出的障碍，必须通过芯片实现；而芯片的发展决不是我们本日想象的，做一个芯片便是 AI 芯片。

要让芯片具有聪慧的能力，这是我们真正须要考虑的事情，不是为了 AI 而 AI 。
你想让 AI 芯片在利用中变得更“聪明”，架构创新是不可回避的课题。
如果你依然用 FPGA，不要有太大的希望，没有独霸天下的可能性。
希望大家在芯片发展过程中特殊关注架构的创新，只有架构创新才能把大家送到这个领域的顶峰。

感激大家！