清华邓志东:我们会迈向一个通用人工智能的世界
人工智能的迭代演进路径
今天非常荣幸有机会与大家分享人工智能。人工智能现在已不是一个陌生的词汇,它的过去、现在和演进方向都已成为大家关心的话题。我今天分享的主要是三个方面:人工智能迭代演进的路径、人工智能的研究前沿与核心能力、通用人工智能的未来发展趋势。
从生成式人工智能的角度讲,它的迭代演化路径大致是遵从这个方向:
一是单模态文本的大型语言模型,输入、输出都是文本。因为我们人类是用文本记录文明,这个称之为基础模型,形成了人工智能操作系统。它是通才模型,下面有成千上万的下游任务,进行微调与性能增强后,变成各种特定任务的专才模型,最著名的就是。
二是多模态基础大型语言模型,让基础模型长上眼睛、嘴巴、耳朵。文本的“懂”是一个方面,更重要的是视觉、听觉和其他感官的“懂”。“懂”就是理解,这叫多模态理解,正在蓬勃发展中。
三是多模态具身智能,即所谓的通用AI智能体。增加了一个动作空间,让这个智能体长上脚、手,就像人一样,有了眼睛、耳朵、嘴巴以后,还要有手脚,才能真正作用到真实物理世界。
四是多模态交互式通用人工智能。这个智能体能够到一个世界模拟器里面进行交互式学习,从而可以达到人类的最高水平,甚至在某些任务上超过人类的最高水平,可以“青出于蓝胜于蓝”。
人工智能操作系统(基础大模型)性能的上限还在不断提高。它模拟了人类的语言智能,把全世界人类记录下来的所有文明的语料库都进行了压缩与封装。这个性能上限需要极大的资源,包括高质量数据、AI硬件或算力卡等进行从头或从零开始的预训练,它可能会走到我们人类百万亿级别的天花板,完成从量变到质变。
大家如果用过大模型,都不怀疑机器也能够阅读理解了。以前可能还怀疑,现在你给它任何一个文本任务,它都能够很好地理解。进一步就是看得懂、听得懂的多模态大模型,再进一步是让它产生动作,这样就全了。
由此发展到通用智能体,再到交互式智能体,到世界模拟器里跟其他智能体、人类、环境进行交互,实践出真知。它可以做到24小时不吃饭、不睡觉、不知疲倦、等效率地在虚拟世界里面进行交互。比如说自动驾驶智能体从A点到B点,如果有足够算力支撑的话,一天可以复盘几十万遍。
因为人工智能交互得多,有更多的实践,所以它就有可能比我们强。今后可能发展出来的结果就是在很多任务上,它的智商强于人类,但是有些地方赶不上人类的状态。
通用与泛化:向全宽度人类水平演进
通用人工智能,我们称之为AGI。AGI的评价标准一个是通用,一个是泛化。
我们现在看到人工智能正在模拟我们人类,它的成长过程跟我们人类的成长过程很相同。孩子们学习家长、学习老师,我们称之为模仿学习,模仿完了离开学校以后会走向社会,在真实的世界里面去通过交互式学习,尤其是通过强化学习来进行迭代。
什么叫强化学习呢?就是我们每天在干的事情,离开学校到社会上会做各种自主的决策。最后总会有个结局,要不就是成功了,要不就是失败了,要不就是平局了。如果成功了就进入了自我奖励,奖励自己的决策序列,失败了则会惩罚自己,平局的话就不反馈信息,这个过程就是强化学习。
所以人工智能会经历从模仿学习到强化学习的阶段,它的评价标准包括通用性和泛化能力。
通用性是说AGI会逼近人的通用能力。比如人类学会的开门的能力,意味着全世界所有的门都可以有办法打开,无论门把手是旋转的、隐藏的、半隐藏的,任何一个正常人都可以打开全世界的门。但现在机器人要打开一个特定具体的门必须进行反复训练,它可以打开特定的门,但是打不开全世界所有的门,所以我们需要发展它的通用能力。
泛化能力是指AGI在一个地方学会的能力,可以复用在另外一个领域、场景,就是人类的举一反三、触类旁通的能力。
一个人工智能模型如果只能完成一个任务,我们称之为弱人工智能。早期深度学习发展的十年,也就是2012年~2022年,就是弱人工智能时代。一个模型完成一个任务,这个模型后面还可以完成2个、4个、100个、无穷的任务,这样的模型就称之为通用人工智能。
它完成的任务个数称之为宽度。一旦宽度达到人类最大平均水平,人工智能就到了一个所谓的“奇点”时刻,也就是说通用人工智能达到了强人工智能。之后它的智商会指数增长,会发展成所谓的超级人工智能。
人工智能:研究前沿与核心能力
人工智能的研究前沿正在蓬勃发展,取得了很多关键性的突破。
一是基础大语言模型正在成为人工智能时代的操作系统。这个操作系统需要喂养全世界的语料数据,相应的算力需求达到万卡、十万卡,甚至百万卡。只有巨头才有资源去做这个操作系统,没有那么多人玩得起,大部分只能搞大模型的应用。
二是MoE大模型成为基础大语言模型与具身智能体的基本构型。MoE是混合专家模型的意思,就是把基础大模型搞成一个个功能模块构成,特别像人类的大脑皮层,有些功能模块是管语言的,有些是管非语言的,如视觉的。一个外部输入会激活串起来形成所谓的神经回路或称通路,即每次只有一部分功能模块响应。比如听到声音就是听觉通路响应,其他通路并不响应。大脑看起来很复杂,实际上每次响应的就是一个部分的通路响应。
GPT-4最早拥有这个架构。MoE可以包括语音、视觉、代码生成等各种各样的功能模块,有几千万、十亿、上百亿的已预训练好的功能模块,有的可以进行参数微调,然后把它们串联起来进行响应,形成通路。
第三,连续空间的语义对齐,成为实现高性能多模态感知与理解的关键。多模态本质上是语义的对齐,语义是语言的本质。语言靠什么沟通?靠意思来沟通,学术上叫语义。我们懂彼此的意思,就是语言沟通。至于怎么告诉,是用文本,还是用图像、视频都无所谓,它就是个意思的载体而已。所有的多模态都具有同一个意思就叫语义对齐,这个对齐发生在一个非常神奇的深度神经网络之内,它是一个连续的向量空间,在这个空间里面可以进行语义的对齐。
第四,VLM与VLA加速了通用AI智能体的发展。前面说了通用智能体有了视觉文本(语言)感知与理解,以及推理能力之后,这样的模型叫VLM。若它增加了动作空间,从感知空间增加了一个动作空间,则叫VLA。从感知空间到动作空间的关系称之为推理,大家看到就是一个推理型的大模型,推理也叫决策或策略。
第五,高效的微调技术是AI+的核心能力。我们有了这些微调技术以后,各种下游的任务就靠微小的变化、部分进行调整。原来的基础大模型是一个通才模型,上知天文,下知地理,但它不是专才,我们希望把它后训练成各个垂直细分领域的专家,从通才模型到专才模型就要靠微调技术来实现。
很成功的一点就是使用了大规模的强化学习微调。微调可以划分为提示微调、参数微调,再可以划分为全参数微调、部分参数微调。这里面非常专业,有大量的方法可以学习与研究。
六是把人工智能变成一个专才模型,还需要性能增强。提示增强,即可以改变提问的方式,如提问的角色不同,给出的回答肯定不同。你给它一个准确的、有技巧性的提问,它也会回答得更专业、更准确。检索增强(RAG),意味着大模型还可以像人类一样利用外部的工具,把搜索引擎结合起来,先在互联网上进行搜索,排完序之后再加上提示词,从而去补充细节,组合起来再去调用这个大语言模型,最终使得大语言模型能够具有时效性。知识增强,允许它有自己私有的本地专门的知识库。可以将各种各样的技巧总结成知识库,进行垂域知识的增强。而逻辑增强,也就是不断提高复杂的逻辑推理能力。
现在非常火。大家首先关心的V3版本。这个基础大模型需要用特别大的资源进行从零开始的预训练,但是只用了2048块H800算力卡,而H800只有H100的70%的能力。2000多块“阉割版”的H800,居然预训练出来一个国际一流性能的-V3版本的基础大模型。
有了这个基础大模型以后,还进行了进一步的创新,发展了大规模的强化学习方法。通过大规模强化学习进行后训练得到的R1模型,推理能力得到显著提升。微调或后训练R1过程中积累的80万条微调监督数据,进一步做知识蒸馏,相应发展出很多蒸馏模型,这就是后面的6个开源密集模型,也称“小模型”。
“小模型”可以通过一些轻量化的技术,甚至可装载到手机里面,做本地部署。如此可赋能千行百业。大模型最终走向各种各样的AI终端设备上面,这是非常了不起的。显著地推进了推理模型的发展方向和大模型普惠化落地应用的进程。
其他的核心能力还包括空间的感知、空间的理解、时间的感知、时间的理解这些基础技术的发展。还需要发展通用人形机器人所需要的具身大脑+小脑+本体联合体。还有就是发展复杂的逻辑推演能力,模仿人的快思维、慢思维。
的成功就是会自动在理解任务之后将之分解成子任务,对每个子任务进行求解。任务分解之后一环一环地求解起来,最终得到一个结果,这就叫思维链,英语叫CoT。
如果思维链条分解得更长一点,或思维时间更慢一点,那它就很有可能具有更强的推理能力。大模型需要模仿人类的快慢思维。人类大部分任务是技能型的任务,比如骑自行车、开汽车都是技能型的,是快思维,不需要过多地思考。
七是世界模型与世界模拟器。人类生活在一个三维空间加上一个时间维的四维时空世界里面,我们可以通过数据驱动的方式(神经网络的方式)重构它,这个数据来源于我们真实的物理世界,这叫数字孪生系统,也叫世界模拟器。AI智能体可以进入世界模拟器,如果有足够的AI算力卡,就可以在里面进行最高效能的交互式学习。实践出真知,通过模仿学习+强化学习的路径,它就可以有更高的真知和智能,从而青出于蓝而胜于蓝。
通用人工智能:未来发展趋势
最后人工智能会走向通用人工智能(AGI),就是模仿学习、交互学习之后的通用人工智能。在这方面我们将看到几个特点:
一是的突破,带来中国AI大模型普惠化应用的拐点机遇。、Qwen2.5-MAX等中国大模型,性能达到了国际一流水平,而且具有更强的推理能力,不仅可以在本地安装部署,还可以做本地化产业推断应用。
第二,Manus是一个AI通用智能体,它能够通过自主的协调去完成更加复杂的任务。这个智能体可以通过任务理解、任务分解、子任务的求解进行全过程的协同协调,最终直接给你一个交付结果。我们今后会产生大量通用AI智能体助手。
第三,更高的智能特征是组织能力。组织能力是最强的,是智能的最高形态。智能的定义在学术界也有争议,但是至少有三个特征:学习能力、协调能力和组织能力。组织能力是最高的智能特征,通用智能体也会有组织能力,去自主地完成给定的任务,甚至可以做意图的形成,奖励模型的学习等。
四是从互联网空间走向真实的物理世界。我们也关注一些新的发展范式,像自动驾驶、通用人形机器人正在协同发展,它们出现了一些新的范式、新的导向。比如说发展一体化的一段式端到端的模型,提升L4自动驾驶与通用人形机器人的泛化能力、通用能力。未来会不会出现L4、L5的自动驾驶汽车呢?通用人形机器人会不会走向生产线,进而走向千家万户呢?这些都会给人类带来颠覆性的改变。
五是我们会迈向一个通用人工智能的世界。通用AI智能体或通用人工智能是个数据智能新物种。人类是生物细胞组成的,是碳基的。这个新的智能物种是数据喂养的、预训练的,是硅基的。这个硅基物种会不会改变世界,给我们带来颠覆性改变?虽然人类利用了鸟的飞行原理启发发明了飞机,但飞机比鸟要强大得多,可以飞得更远,更高,载重更大。
从这个角度讲,AGI会不会最终发展得比我们人类这样进化了几百万年的生物系统还要更厉害? Law会不会推动AGI的持续发展? Law也叫规模化定律,它是的信仰,其内涵是大模型基于的架构,若模型参数规模越大,其性能也会线性或者接近线性地增长。
这样不断地扩展模型规模,性能是不是还会继续往上走,甚至走到了人工智能的奇点时刻,会不会一直都有效? Law也会带来另外一个效应叫做智能涌现。简单说就是规模到了一定程度以后,会有一个阈值,就会出现智能涌现。就跟人类大脑一样,大脑规模化以后产生了这么多神奇的智能或智慧,包括人类举一反三,触类旁通的强大泛化能力。
但人工智能的发展如何不威胁到人类文明?生成式大模型和通用智能体会产生意识吗?这个意识应该被探究与发展吗?人工智能国际治理中的红线与底线是什么?所有这些问题都需要我们进行深入思考。