科技峰会丨思尔实验室主任李世鹏:建立逻辑是人工智能突破瓶颈的关键

21世纪经济报道 21财经APP 李强
2022-09-23

21世纪经济报道见习记者李强北京报道

9月23日,由南方财经全媒体集团旗下《21世纪经济报道》主办的“2022年度21世纪科技峰会”正式召开。

人工智能经历漫长的发展,到如今已经来到大数据驱动的深度神经网络阶段,人们期望基于深度学习解决所有问题,思尔实验室主任、国际欧亚科学院院士、I SEE Fellow李世鹏指出,由于深度学习本身缺乏逻辑推理能力,大数据的前置收集准备成为限制人工智能发展普及的瓶颈。

“今天的AI还仅仅出在最初层次,它仅仅是解释数据之间的关联性,我们需要将建立数据相关性转向探索数据之间的因果性,这就产生了数据之间的逻辑推理。”

对于如何突破深度学习瓶颈,李世鹏提出,更深一步是干预,在不清楚数据间相关性或者因果性的情况下,通过人为注入一些数据去观察变化,而最高层次被称为反事实,利用假想推理,即不需要注入数据,而进行的自动学习。

李世鹏简要讲述了人工智能的历程,最早是基于符号逻辑进行推理证明,能够做到证明数学原理定理,由此也引爆了外界对人工智能的热情与想象,人们畅想能够智能机器成为国际象棋冠军、发明和证明有意义的数学定理以及谱写优美的乐曲等等。

“但实际上这些在当时没有实现,问题出在哪里?没有解决智能机器如何把实际的问题抽象成符号的逻辑,所以它只能支持模拟推理少数特定规则下运行的场景。”李世鹏表示。

至上世纪七十年代末,人工智能进入第二个阶段——基于人工规则的专家系统阶段,核心是将逻辑推理上升为专家系统,知识工程神经网络的BP算法解决了学习的收敛问题,专家可以手工构建规则,选取特征来解决一些小规模的特定问题和考核要求。

“这个时候问题又出现了,专家没那么多时间,也没有办法穷尽所有的规则,这里面的经验教训就是那么知识不能仅仅靠专家手工来表达,要靠自动学习,于是到2007年前后,人工智能发展到了第三个阶段,也就是大数据驱动的深度神经网络这个阶段。”李世鹏表示。

这个时期由算法、算力、大数据的发展共同发力,不再需要去手动的选取一些数据特征,或者是构建一些规则,深度学习能从标注的信息中自己习得出普世模型。这也推动了人工智能在语音识别、图像识别以及语言处理等感知智能方面做出巨大成就,而且能够实际解决一大类事业中的共性问题。

 “它的成功之处在于开源的AI框架,只要有足够多的标注数据,足够强的计算资源,就可以渲染出一个非常有用的模型,而且摆脱了各种特征选择对人的经验和智力依赖。”李世鹏表示。

“最大的问题是对大规模数据标注的依赖越来越成为人工智能发展的瓶颈,没有足够的数据,就很难去创建足够准确的模型,想要拓展到更多的应用场景,都需要同样规模的标准大数据,因此人工智能的推广就变得非常困难。”李世鹏表示。

而科学界也在探索各种方法,比如优化算法核心,减轻对数据依赖瓶颈,比如说对数据深度学习算法优化、效率提升、计算量降低等,在模型压缩方面,也有连续学习小样本学习、迁移学习等。

李世鹏还指出,需要多元、多模态的大数据,向孩子的认知过程学习。“人类学的学习过程从来不是只接触一段语音、一个照片的单一内容,而是依靠多传感、多模态数据,包括视听嗅等联合信息一起来学习,这其中的启示就是多模态数据的重要性,多模态提供存在标注差异的不同模态数据,组成一个很好的学习框架。”

“认知科学的研究中我们看到,只要数据真实,合乎逻辑,特定的数据并不重要,重要的是数据量,只要正确的逻辑足够多,总是可以训练得到一个收敛的通用规则模型,从这一点上讲,需要打破专家系统所预设的专家标准瓶颈,让普通人来参与标注来生产大量的规则,这也是我们要拥抱的从大数据到大规则的变化。”李世鹏表示。