2023年《麻省理工科技评论》“35岁以下科技创新35人”中国区发布将来到上海。本次论坛我们聚焦「Infinitas 未来无限」,我们将搭建一个展现“青年人”智慧与潜力的舞台,聚集全球创新人才和资源,让更多人见证他们不懈的探索和追求,让一点火苗点燃他们无穷的创造力。让上海与我们共同见证这片广阔无垠的舞台上,追梦者们绽放出耀眼的光芒。

邱.jpg

以下是复旦大学计算机学院教授、MOSS大模型负责人邱锡鹏在2024中国科技青年论坛精彩讲话,由云现场整理。


大家好,我是来自复旦大学的邱锡鹏,今天非常荣幸在这样的场合给大家做关于我们工作的报告。我们首先非常祝贺获奖的这些青年科技人才,现在大模型是一个非常重要的方向,希望在这样的场合给大家介绍一下,让大家了解我们在这方面最新的进展。我报告的题目是《大语言模型到世界模型》。

这一轮人工智能的爆发主要来自于它的通用型,比如说以ChatGPT或者Sora这种非常通用的模型,它给我们整个领域带来了非常大的突破,看到了通向通用人工智能的曙光。它和早期的Alphago这些模型还不一样,因为那时候还属于弱人工智能,一个模型来解决一个任务。现在以ChatGPT为代表的模型是一个模型来解决多个任务,就像我们人一样。

为什么说这轮以大语言模型开始呢?它的关键是语言在这里面充当一个非常重要的角色,语言其实反映了我们人脑对外界的一种抽象,我们这里说的语言不是语法、词怎么组合,而是以语言为载体的人类知识的总和。维特根斯坦说过人类语言的边界就是世界的边界。就是能够称之为知识的基本都需要通过语言来表达,某种程度上来讲,语言是人类智能对世界的一种压缩。

如果我们想做一个模型,让这个模型拥有世界知识,现在非常方便的途径就是通过语言。首先由语言对这个世界进行总结,描述它的各种规律,总结各种知识,然后用模型通过模仿学习的方式来学习我们的世界知识。我们也可以往回走,比如由模型去生成语言,再由语言去调用各种工具来和这个世界进行交互。我们最终是希望建一个模型,这个模型可以直接去观察世界,并且和这个世界进行直接交互。

其中非常重要的是通用语言表示,我学习一个模型,这个模型可以理解各种各样的语言知识。我们实验室很早就开始这方面的研究,2016年就提出我们要学通用语言表示,并且分成两个阶段,一个是语言模型预训练加精调,应该是这个领域里做得非常早的。后来我们在预训练上做了很多工作,包括中文的很多模型,特别是生成式模型上发布了很多工作。在2022年的时候我们就注意到生成式模型或者生成式方法,比如说自回归式的方法是一步步生成下一个词的方式,有可能统一自然语言处理的范式。并且发了一篇文章来描述这一现象,我们把这一现象称为自然语言处理里的范式迁移,并且很早就提出一个概念叫Language-Model-as-a-service。

我们应该是国内最早提出大模型MOSS的,它完整复现了从预训练到监督微调到偏好对齐的路线,我们还是第一个让模型能够使用工具的工作。整体的MOSS技术路线和ChatGPT是比较类似的,因为我们也一直在做这个方向,所以也比较早的在做这块,所以比较早的就提出了这样的模型,包括它的工具调用模型。因为我们在学校,总体上来讲做的模型规模不是很大,所以我们很早就开始说能不能让模型自己学会使用工具,从而提升它的能力,所以我们最早就发布了MOSS-Plugin,是最早可以利用的使用工具开源模型。

大语言模型非常厉害,但是好像发展到今天,它也没有大家想象的那么好。为什么呢?其实内部还有一些问题。比如说它不能预测未来,因为它学的知识是过去的,它也不知道当前世界发生了什么。比如说我们这次获奖的青年科技人才的人员名单,它也不知道。现在的大语言模型不是万能的,它也不能做非常复杂的数学运算和非常复杂的推理。如何进一步提升大语言模型的能力呢?看我们人是怎么做的,我们人有一个所谓的世界模型(World Model),但这个世界不是说人类世界,而是指一个环境。比如我们做任何事情的时候都会对周围的环境做建模,我们会不断预测,当我做一个动作的时候,它下一步会是什么状态,从而调整自己的动作。

我们现在的transformer为主的大语言模型,在这里面少了几个比较关键的部件,一个是让它如何感知我们的真实世界,它还要有一个memory模块,以及能够执行各种各样的动作,都需要我们把这些能力注入到大语言模型当中。值得我们庆幸的一点,现在的大语言模型已经非常好的构建了一个世界模型,只不过它是符号空间的。我们去问一些GPT关于外部世界的知识,它其实回答的非常好。这样的话,我们存在一种可能性,我们在现有的大语言模型基础上就可以把它改造成一个世界模型。

最近也有一篇这样的工作,它虽然验证了大语言模型和世界模拟器不等价,但是它也足够说明了现在的大语言模型已经可以支持非常多的世界模拟器任务,比如说在这里它有60%的情况下都可以完成它的一些任务,所以我们只需要把剩下的40%补充好,它就可以变成一个世界模型。世界模型的下一个阶段其实就是我们如何把它放到一个机器人上或者一个本体上,让它通过具身智能的形式来自我提升,这时候大语言模型可以作为本体的大脑,通过跟外界不断的交互来进行不断的自我学习。

这是我们下一步开发自己大模型主要做的一步,包括改进它的架构、获取更好的数据,以及和人类进行更好的对齐、工具增强、跨模态融合,还有智能体。

给大家介绍一下我们目前开展的工作,一个是高效架构,我们需要大幅降低目前transformer在处理长序列时的复杂度,我们提出了非常多的稀疏架构方法,可以把计算成本大幅下降。再比如说我们需要模型具有很强的上下文感知猛烈,我们提出来一种所谓的位置外推法则,我们训练的时候可以在短上下文中训练,但是真正在推断的时候可以使用更长的上下文,并且可以把上下文的长度扩展到百万级别。

我们还开发了非常多的低内存优化算法,让大家可以在消费级显卡上微调一个百亿级、千亿级大模型。我们在能力点的开发上没有追求刷榜,因为刷榜的能力和真实使用感受的能力还是不太一样,我们收集了非常多的真实用户需求以及中文能力,实现上千个能力点。以及参考Anthropic提出的宪法AI思想,我们希望可以通过一些规则或者一些原则,让模型来遵守,而不是把它刷到模型参数里,这样可以使得在推断时对人类价值做到更好的遵守。

我们要让模型去实时感知这个世界,我不但要理解这个世界,我还要能够在脑海中想象一个世界,所以我们需要这个模型有理解外部世界的能力,还有生成世界、模拟世界的能力,这就需要这个模型有全模态的理解和生成能力,它支持任意模态的输入,也可以生成任意模态的输出。我们在这个方向进行了一些尝试,比如说让模型直接能听懂语音。其实做法也非常简单,我们直接把语音信号离散化,离散化之后它变成一个个token,我们就可以把语音看成新的语言,用大模型训练的方式就可以来训练。并且我们提出了一些更好的语音离散化工具,使它不但在语音里保存词义的信息,还能保持情感等其他信息。我们就提出一个模型叫SpeechGPT,最近会放它的第二版,有更好的效果。

这里有一个例子,我们可以让模型直接听懂语音,直接根据语音去产生回复。最近GPT-4o也发布了一个模型,这个模型应该就是SpeechGPT这种路线,支持一个大模型直接理解和听懂语音。

在语音的基础上,我们可以进一步把这个模型扩展到其他模态,比如说图像、视频等等,任何你想到的模态,只要你能把它离散化,都可以通过这种方式把它扩进来,所以我们把这个称之为ANYGPT,ANY表示any to any,任意模态到任意模态的转化。我们把所有模态都离散化成一个token,输入到语言模型,通过自回归的方式就可以一步步生成其他模态。生成其他模态的token之后,就可以把它还原成其他模式。

这里有一个示例,右边是我们人的输入,比如我可以用语音输入,这个模型就可以生成一个图像,根据人的需求生成一段音乐或者生成一段视频。它和ChatGPT不太一样的地方是它是全模态的输入输出,它和现在市面上所谓的多模态模型不一样,市面上多模态模型都是一个图像加一个文本的指令进去,然后用文本来回答,称为多模态。但这不是真正的多模态,真正的多模态应该像ANYGPT这样,支持任意模态组合的输入和任意模态组合的输出。这是我们最早提出的概念,我们后面也在推进,真正让它做到像我们人一样,比如说我们感知世界,在脑海中去重构这个世界,构建一个所谓的世界模型。

我们现在主要的工作是开发第二代的MOSS大模型,它的六个大的方向,分别从高效架构、数据治理、人类对齐、工具强化、工具增强、跨模态融合,最终把它变成智能体放在一个本体上,让它通过和世界的不断交互来进行学习。我的报告就到这里,谢谢大家!