自1999年起,《麻省理工科技评论》每年在全球范围内从生物医药技术、能源材料、人工智能等多个前沿学科和科技领域中遴选出35岁以下对未来科技发展产生深远影响的青年科技人才-“35岁以下科技创新35人”。2017年《麻省理工科技评论》将这份最权威的榜单落地中国,旨在以全球视野挖掘最有创新能力的科技青年领军人,并为这些青年科学家搭建一个高度国际化的舞台。

为聚集全球创新人才和资源,打造创新人才高地,中关村科学城与北京清华工业开发研究院联合《麻省理工科技评论》中国,于2023年3月30日-31日在北京·海淀中关村自主创新示范区展示中心会议中心举办全球青年科技领袖峰会暨《麻省理工科技评论》“35岁以下科技创新35人”中国发布仪式。


卢志武.jpg

以下是中国人民大学高瓴人工智能学院教授卢志武在全球青年科技领袖峰会的精彩演讲,由云现场整理。


我今天报告的题目是多模态通用生成模型的思考和实践,这是三部分内容,首先介绍一下在这个方面的最新进展我们自己在这个方面的思考和具体的做法,最后总结展望一下。

最近ChatGPT特别火,GPT-4也出来了,也提出了一个概念可以接受图像输入,意思就是说已经是多模态了,但是我觉得首先它到底怎么做的也没有公布,我们都不知道。

第二个就是它的解决方案,就算公布了,还有很多不确定的,大家都值得探索,所以受ChatGPT的启发,我们应该关注更广范围的,更一般的模型我们叫做多模态的通用生成模型,这个跟ChatGPT有什么差别,一个就是我们的输入一定是多模态的,我们可以接受语言、文本、声音、图像和视频,我的输入可以是这个东西,我的输出也是可以多模态的,比如说可以生成语言,那就是ChatGPT了,把这种模型叫做多模态通用生成模型。

这个方面其实有一些人已经开始探索了,比如说第一个模型,这个具体不讲了,假设有一个图像,接受图像输入以后,编码然后往语言空间映射,最后同样用一个类似于ChatGPT的模型把它生成出来,也有一些比如说最新的工作跟这个大同小异,还有微软发布的COMOS,甚至还有谷歌发布的PaLM-E,这几个模型其实都很类似,细节上有一点差异。它们最核心的思想就是通过一个图像输入进行编码以后,然后通过一定的映射到语言空间,最后统一用一个语言模型生成出来,所以本质上是做接受图文的输入,但是要生成一个文字,这个其实就是所谓的多模态对话。

这个方面最新的最好的工作肯定是GPT-4,但是它透露了很多信息不知道的,只是简单的给了一个标准的评测,看起来效果很好,但是这个并不代表什么,因为我们的大模型在这种标准输入上,评测的效果都很好,所以我特别期盼把视觉版的GPT-4开放大家都评测一下,看看它的效果到底有多好目前只有纯文字版。

这个也是微软的工作,它的核心思想是把ChatGPT当做一个中转或者是中介,人类语言的要求要干什么,前不用ChatGPT翻译成什么指令,这个指令是可以被计算机读懂的,这样任何多模态的任务都可以通过ChatGPT转成机器能读懂的指令,最后可以执行它,基于这个模型,就可以做很多事情,比如说可以做多模态对话,也可以做文生成图,甚至还可以做很多视觉的其它任务。

最后就是清华大学朱真老师的一个工作,一个统一的模型,想要做到两件事情,一个是生成文本同时还能生成图像,为什么能做到这个,其实他们在这个模型里面有一个最新的工作,把里面最核心的部件Ulot替换成VIT,这样把语言的生成和图像的生成全部统一在transformer的架构下面,这样就把这两个任务真正的通用生成,既可以生成图像,也可以生成文字,统一在这个框架下。

刚刚上面所有的模型,有一些是前两年提出来的,有一些是今年和去年提出来的,但是他们都没有考虑像ChatGPT这样考虑指令微调,我们没有在多模态生成的任务上做指令微调,GPT-4做没做不太清楚,但是除此之外,应该是都没有做指令微调的。

我前面把别人的工作评价了一下,我们自己在这个上面有没有做一个工作,其实我们有,我们在3月8日的时候发布了一个产品叫做ChatImg,可以围绕图像的输入做对话,我们的模型其实跟前面的GPT-4这些都是差不多的,这个上面谁也没有比谁更聪明,其实都差不多,我们跟GPT-4有什么最大的差别,还是有一些自己的思考,至少我相对于他们,我们在训练的时候已经加入了视频,视频比图像包含的信息更多,可能我们学到的大模型在它的涌现能力上更强。

另外一个就是我们把视频加进去还有一个重要的考虑,肯定还是希望它能直接生成视频,除此之外,我们还做了什么事情,我为什么要把ChatImg推出来,是因为我们开放使用了以后,可以收集到很多用户的数据,用这个用户数据可以拿回来重新优化这个模型,虽然是一个高校的团队,很小的可能就10个人,但是也可能形成一个小的闭环,虽然可能做不到GPT-4那么好,但是至少在独立自主,国产这个上面做到最好也是可以的。

这是我们的一些例子,第一个例子就是输入一张画,任何的艺术品都可以,丢到我们的模型里面,可以问问它,您对这个艺术品有什么评价或者鉴赏,它会详细的把这个鉴赏写出来,写的还是挺像那么回事的,里面如果有时还是可以纠正的,比如说梵高说是美国的,你可以说你再想一想,它就会发现是荷兰的,是可以纠正回来的,也可以做推理,像GPT-4一样做推理。

气球上面吊一个人问它,如果你把绳子剪掉了,那个人会怎么样,它其实是知道的,我们的模型在图象识别上也是很强的,第三张图里面大家可以仔细看一下,其实是有两个彩虹的,双彩虹,我们的模型是准确的识别了这个双彩虹。

最后我要说一下我们的模型还能识别人的情绪,这个是我做ChatImg这个产品自己最看重的一个能力,为什么做这个,我是从通用人工智能的角度说的,我们希望我们的通用人工智能最后一定是要装在机器人里面,而不是说简单跟人互动如果通用人工智能实现了,应该是机器人表现的人跟一模一样,大家现在看看市面上所有机器人,应该都是很死板的,就算是波士顿动力一看就是个机器人,怎样才能做到跟人一样自由的交流,其实就需要一个GPT-4或者类似于我们这样一个ChatImg这样一个模型,可以同时接受声音或者语言的输入,也能通过他的眼睛,他的摄像头可以接受图像的输入,机器人就可以根据摄象头的输入,可以正常的跟前面的人交流。在交流的过程中间,能准确的识别人的情绪是第一步。

其实,我们这个产品你扫这个码可以体验一下,可能在座的各位以前可能听过我的报告,可能试用过,如果没有听过,你扫一下这个,可以马上试用的,我们是开放的,任何人都可以试用,也有一定的免费次数。

围绕着我们这个产品目前做的,我们会用1亿的视频去推我们这个模型,这是第一步。第二步我们也在跟一个单位合作,我们把我们的ChatImg这个能力赋给一个人形机器人,下个月应该会推出来,那个机器人最终我们希望像正常的跟人一样交流,我们可以跟它打招话,可以聊任何的天,那都是小Case了。

最后总结一下,ChatGPT或者GPT-4给我们的研究方式带来特别大的震动,我们每个人都要反思,我们的研究人员也是,各行各业都带来了很大的冲击,这是一个坏事情,但是同时也是个好事情,我们只要积极的去面对它,总是有办法。

我就是一个10人的团队而已,我撼动不了OpenAI,我也撼动不了百度,但是我就是比百度做得好,3月8日我就把这个产品做出来了。大家一定不要我是第二个GPT-4,GPT-4是没有开放的。

所以,只要我们大家有一个正确的心态,肯定可以应对这个变化,你也做出很好的工作。现在所有多模态通用生成模型,都有自己各自的特点,这个意味着我们每个人都有机会,没有谁比谁做的好,就算是GPT-4也不行,它也有很多明显的缺陷。

在这个方向上,我觉得大家都是有机会的,中国人也有机会。这个时候我真的不认同很多投资人观点,他们总是觉得美国人行,中国人不行,这种我听了100遍了,投资人说的,我再发一次声,在这一点上中国人还是可以做的有特别的特色,不见得比美国做的差。

第三,多模态通用生成模型或者多模态GPT,它到底应该设计成什么样子,目前都没有定论,我们大家都是值得去探索的。一个是多模态的方向值得我们学习,一个是这个多模态的生成模型本身还是有很多未知的,我们都是可以去在这个上面突破。反而我觉得如果所有的人去转ChatGPT,我倒觉得很多的团队可能转不出来。

我今天的报告就到这里,谢谢大家。