鄂维南：人工智能的零数据、小数据、大年夜数据和全数据方法_数据_办法

文章目录 [+]

2024年6月召开的中国科学院院士大会上，我应邀作了一个以“数学与人工智能”为题的大会报告。
会后许多院士都希望我把报告的紧张内容写出来，这是这篇短文的由来。
在这篇文章中，我试图用相对普通但又不粉饰核心问题的措辞阐明人工智能的一些紧张方法和它们各自的特点。

人工智能的浩瀚不同方法，可以根据其所用数据量的大小，分为零数据、小数据、大数据和全数据方法。
当然，数据不是人工智能发展的唯一线索，但它可以比较方便地帮助我们梳理人工智能发展过程中涌现的不同想法。

鄂维南：人工智能的零数据、小数据、大年夜数据和全数据方法_数据_办法互联网

零数据

逻辑推理、符号打算、专家系统等原则上都不须要数据。
逻辑推理方法的紧张思路是布局算法和软件模拟人的推理过程。
符号表示和符号打算试图把逻辑推理更加形式化、自动化。
在1956年的达特茅斯(Dartmouth)会议上，纽厄尔(Newell)、肖(Shaw)和西蒙(Simon)推出的逻辑理论(Logic Theorist)系统便是一个这样的例子。
逻辑理论被认为是第一个人工智能系统，它能够证明许多数学定理，还能下棋。

专家系统的目标是把专家知识用软件系统实现利用。
专家系统最成功的例子是IBM的深蓝(Deep Blue)，它在1997年降服了国际象棋冠军卡斯帕罗夫(Kasparov)。
其他零数据方法方面范例的事情包括LISP措辞和数学定理机器证明的“吴方法”。

小数据

线性回归、逻辑回归、支持向量机等统计学习方法是范例的小数据方法。
早期的神经网络，如感知机(perceptron)，也是小数据方法。
隐式马尔可夫过程(HMM)、N-gram、深度学习涌现之前的机器学习方法等，也都是小数据方法。
过去的模式识别、自然措辞处理、语音技能、机器人技能等都是基于小数据（或零数据）方法实现的。
很长一段韶光里，人工智能是靠这类方法支撑的。

零数据和小数据方法每每对大略问题（如跳棋、象棋等）比较有效，但是在繁芜问题面前无能为力。
详细地说，它难以战胜“组合爆炸”和“维数灾害”引起的困难。
组合爆炸是指当系统变大的时候，所有可能涌现的组合爆炸性增加。
例如从国际象棋到围棋（见图1），棋盘从8×8变成19×19，其所有可能的组合增加了多个数量级。
零数据方法虽然能够办理国际象棋问题，却难以办理围棋问题。

图1 国际象棋（左）与围棋（右）棋盘（图来自互联网）

维数灾害是指当一个问题的自由度（即维数）增加的时候，打算繁芜性呈指数增加。
小数据方法可以处理低维问题，但是难以处理高维问题。
对付图像识别、量子化学、动态方案和非线性统计等领域的高维问题，人们只能通过履历、特色工程或者极度的简化方法处理。
量子化学中的哈特里(Hartree)或者哈特里-福克(Hartree-Fock)方法，以及非线性统计中的广义线性模型(generalized linear models)等都是极度简化方法的例子。

人工智能经由了几次大起大落，实质上都是由于对组合爆炸和维数灾害的困难程度认识不敷引发的。
最近几年，我国仍有团队提出摆脱大数据、以小数据方法实现通用人工智能。
这个方案的核心问题是它能否战胜组合爆炸和维数灾害引起的困难。
如果这种思路能够有效办理围棋问题，那么它和传统的零数据、小数据方法一定有着实质的不同。
如果不能，那么基于这种思路建立的通用人工智能系统最多也只是一个“弱智”系统。
这并不是说零数据、小数据方法在处理繁芜问题时没有用，而是说仅仅靠这些方法难以走得很远。
我们必须对此有精确的认识。

大数据

只管深度学习受到热捧之古人们就已经在处理和剖析大数据，但是真正让大数据充分发挥浸染的方法是深度学习，其标志性事宜是辛顿(Hinton)团队于2012年赢得ImageNet图像识别比赛冠军。
辛顿等人设计并演习了一个神经网络，取名AlexNet。
AlexNet有5层卷积网络、3层全连接网络，6000多万个参数。
比较较而言，之前杨立昆(Yann LeCun)演习的Le-Net只有几万个可演习参数。

须要强调的是，辛顿等人在演习AlexNet的时候用的紧张算法，如随机梯度低落、反向传播等都是已知的。
辛顿团队的事情便是充分演习了这样一个多层神经网络。
要做到这一点，就须要高质量的数据资源和一定的算力资源。
这正是ImageNet和GPU发挥浸染的时候。
以是辛顿等人的事情既是技能上的成功，更是信念上的坚持带来的成果。

辛顿等人的事情不仅改变了图像识别，而且改变了全体人工智能领域，由于基于神经网络的深度学习方法是一个通用方法。
神经网络实在便是一类函数，它与多项式这类函数的不同之处在于它彷佛是逼近多变量函数的有效工具。
也便是说，它能够有效地帮助我们战胜维数灾害和组合爆炸引起的困难。
事实上，基于深度强化学习的人工智能方法，AlphaGo很快就在围棋比赛中降服了人类最好的选手。
神经网络也被用来办理科学领域碰到的多个自由度的问题，如蛋白构造问题、分子动力学势能函数问题等，并由此催生出一个崭新的科研范式：AI for Science。
正由于深度学习在多变量函数逼近这样一个非常根本性的问题上带来了巨大打破，以是它在各种各样的问题上都给我们带来了新的可能。

须要强调的是，只管很多成功案例都表明深度学习方法是办理高维问题的一个有效工具，但我们对其背后的缘故原由理解得还很不充分。
从数学的角度来说，这是一个非常优雅、非常清晰的数学问题，它将推动高维剖析的发展。
关于这方面的事情，请拜会我在2022年国际数学家大会上的报告。

早在20世纪40年代，麦卡洛克(McCulloch)和皮茨（Pitts）就提出了神经网络的观点。
50年代，罗森布拉特（Rosenblatt）又提出了感知机的观点。
为什么要一贯等到2010年旁边，人们才开始真正认识到神经网络的巨大威力？我认为其根本缘故原由有两个：一是演习好神经网络须要一定的高质量数据和算力资源，这些条件是一个门槛；二是人们缺少对神经网络的精确认识。
明斯基(Minsky)和佩珀特(Papert)合著了一本很著名的书，就叫“感知机”(Perceptron)。
这本书研究的一个紧张问题是：什么样的逻辑函数可以用（两层）感知机精确表示出来？结果他们创造，一些大略的逻辑函数都无法用感知机精确表示。
这本书的出版给全体神经网络领域的发展带来了巨大负面影响。
究其缘故原由，明斯基和佩珀特的出发点是缺点的：我们该当把神经网络算作是逼近函数的工具，而不但是看它能够精确表达什么函数。
而从函数逼近的角度来说，神经网络不仅能够逼近一样平常函数(universal approximation theorem)，而且基于神经网络的逼近和基于其他传统方法的逼近有着实质差异：传统逼近方法有维数灾害问题，而神经网络在高维或者多个变量的环境下仍旧很有效。

当然，除了维数灾害和组合爆炸之外，还有许多其他问题须要考虑。
比如，对文本这类韶光序列数据来说，能否处理长期影象(long-term memory)是一个主要问题。
有结果表明，循环神经网络(RNN)有影象灾害问题：即当影象长度增加时，所须要的神经元个数呈指数增加。
而transformer网络没有这个问题。
事实上，有理论结果表明，transformer网络的确能够有效表达长程但稀疏的影象依赖关系。
这正是大措辞模型所须要的。

全数据

大数据方法考虑的是单个数据集，全数据方法的思路是把所有数据都用起来。
比方说，把互联网上所有高质量文本数据都用起来。
这里有两个关键问题，一是绝大部分数据都是无标注数据，如何用好这些无标注数据？预演习方法便是为理解决这个问题而出身的。
二是既然我们把所有数据都用了，就得把所有可能的下贱问题都办理了。
也便是说，我们的目标必须是某种形式的通用人工智能系统。
这就催生了有监督的微调（SFT）技能。

目前这个思路最成功的实践涌如今文本领域。
对文本来说，有两个最范例的预演习框架。
一是谷歌的BERT，它的出发点是填空；二是OpenAI的GPT，它的技能路线是预测下一个词。
就目前的发展情形来看，GPT占了绝对上风。
究其缘故原由，是BERT试图靠高下文内容进行语义理解（双向预测），而GPT只根据过去预测未来（单向预测），以是GPT既是一个天生模型，又是文本任务的一个通用模型：只要能够预测下一个词，我们就可以办理文本领域的所有问题，包括翻译、对话、写作等。
从智能的角度来说，如果一个机器能够在不同场景下把预测下一个词的任务做好，那么它的文本能力就不低于人类。
也便是说，它具备了一定的智能的实质特性。
比较较而言，BERT完成的是一个更加大略的任务，由于它能够利用后面的文本内容帮助完成填空问题，以是它不须要很强的智能能力。

从理论上来看，大模型带来的最突出的征象是缩放定律(scaling law)和相应的呈现征象(emergent behavior)。
缩放定律源于繁芜系统研究，是指当系统规模变大时，干系指标会按照一定的规律变革。
在大模型领域，它有两方面的意义。
一方面，它让我们可以从演习小一点的模型出发，估算出演习大模型所须要的打算量和数据资源；另一方面，它为提升模型的功能供应了一个辅导方向。
从后者的角度来看，缩放定律起的浸染有点像摩尔定律。

该当强调的是，缩放定律和呈现都是在繁芜系统中常常能看到的征象。
不同的技能框架可以有不同的缩放定律，而优化缩放定律该当是我们追求的紧张目标之一。
当然，我们也可以问：就像摩尔定律一样，缩放定律究竟会有结束的时候，下一步该如何发展？

我们还可以把这些不同方法组合在一起，构建更加有效的方法。
一个例子是DeepMind推出的AlphaGeometry，它求解国际奥林匹克数学竞赛中平面几何题目的能力靠近了人类最高水平（见图2）。
它的紧张想法是把逻辑推理方法和履历方法相结合：定理库和树搜索供应详细证明，而机器学习模型供应思路，比如如何加赞助线。
毫无疑问，这类想法有着巨大的发展空间。

图2 AlphaGeometry将目前模型的几何定理证明水平从低于人类水平提高到靠近金牌水平

从长远的角度来看，目前以GPT为代表的技能路径并不适宜我国的国情。
首先，在相称长的一段韶光里，我国的算力与美国的比较将会有相称大的差距。
目前海内大模型第一梯队的算力资源基本上是万卡规模（比如英伟达A100），而美国第一梯队是10万卡乃至更大规模。
这就意味着在不远的未来，许多致力于开拓基座模型的团队可能不得一直下追赶的脚步。
其次，GPT存在许多摧残浪费蹂躏。
我们该当探求更加低能耗、低本钱的替代路径。
最近推出的“忆立方”（Memory3）模型便是一种这样的考试测验。
它用内置数据库的办法处理（显性）知识，避免把知识都存放到模型参数中，这样可以大大降落对模型规模的哀求。
末了，GPT并不能办理所有问题。
在许多方面，比如图像，我们还须要寻求更加有效的技能方案。

什么才是适宜我国国情的人工智能发展路径？如何才能担保我国的人工智能长期稳定地发展？要回答这些问题，我们必须在以下两方面尽快布局。
一是建立起一个完全的人工智能底层创新团队和创新体系，在模型架构、AI系统、数据处理工具、高效演习芯片等方向追求新打破；二是探索人工智能的基本事理，只管我们与节制人工智能的基本事理还有很大差距，但是我们已经具备了探索这些基本事理的条件。
而长期稳定发展的技能路线，一定会在这个探索过程中产生出来。

致谢：在这篇文章的写作和院士大会报告的准备过程中，我得到了黄铁军、杨泓康、袁坤、朱松纯等老师的帮助。
在此一并表示感谢！

鄂维南

CCF会士。
中国科学院院士。
北京大学教授。
紧张研究方向为机器学习、打算数学、运用数学及其在化学、材料科学和流体力学中的运用。
weinan@math.pku.edu.cn