2023《麻省理工科技评论》中国“十大突破性技术”主题峰会由杭州市委人才办指导,余杭区委人才办、杭州未来科技城(海创园)管委会和《麻省理工科技评论》中国共同主办,峰会将围绕十大突破性技术在中国落地性最强、目前最受关注的领域进行深入解读。邀请来自生命科学、能源气候、人工智能、信息技术、新型材料等领域的学术专家、行业领袖、知名投资人和高校、机构、企业代表齐聚国家四大科技城之一的杭州未来科技城,在20多年的积累和总结基础上,剖析发展历程,共同探讨未来技术发展趋势,并带来兼具专业性和前瞻性的研判。

在这场精彩绝伦的思想交流盛会上,与科技新生代力量一道见证科技发展的日新月异,共同畅想创新蝶变的美好未来。


_W1_1276-opq432036754.jpg


以下是现场直击 | 圆桌对话 :打开AIGC的“黑匣子”在2023《麻省理工科技评论》中国“十大突破性技术”主题峰会上的精彩致辞,由云现场整理。


潘鹏凯:非常高兴能和三位科学家探讨一下AIGC的未来。

首先请三位科学家、企业家介绍一下自己的背景和工作。

    

梅涛:特别感谢DeepTech邀请我们过来参与这个活动,我叫梅涛,我们之前和张家兴和段楠都是朋友。我们在京东组建了人工智能团队,今年投身到AIGC的创业大潮中创立了HiDream.ai公司,主要是做基础模型和应用,大概就是这些内容。

    

张家兴:大家好,我是张家兴,来自深圳。是粤港澳大湾区数字经济研究院,我在那边做讲习科学家。其实我们在座三位以前都是微软亚洲研究院的前院友。在整个过去十年里面,我们一直在做深度学习,当然从两年前开始当我来到深圳之后就开始做预训练大模型,我们做了一件对中文认知智能很有意义的事情,我们开源了接近100个预训练模型,成为中文最大的预训练模型体系,我们叫封神榜开源体系,成为整个中文认知智能的基础设施,很多团队都是基于我们的模型继续往下做工作。

当下Open AI、ChatGPT让我们进入通用人工智能时代,很快会有一些通用人工智能大模型问世帮助业界。

    

段楠:非常荣幸受邀参与十大突破性技术主题峰会,我是段楠,来自微软亚洲研究院。用一句话概括我的工作,我们一直都是以构建通用的人工智能模型,希望能够在充分理解人类的意图的前途下进行一些精准的生成,最后赋能人类帮助大家完全各种各样不同的任务。过去几年我和我的团队主要在多语言、多模态的预训练,包括一些复杂问题的推理以及复杂任务的自动化求解等方面做一些长期持续性的研究,谢谢大家!

    

潘鹏凯:谢谢!微软亚马逊对中国AI和发展做出巨大的贡献,我自己2004年创业了,最早是用AI的方法做数字内容,做了十几年,现在转到生命科学,现在34%是生命科学,21%是计算。所以生命科学+计算,我相信是下一个热点。

    第一个问题,AIGC太火了,我想听听各位的想法,从段老师开始,你觉得AIGC现在到了人的智能,你觉得是什么水平。因为数字发展太快了,引起了很多人的焦虑。接下来发展下去大概是什么样子?

    

段楠:我觉得每个人可能都有自己心目中的通用人工智能。我是自然语言处理的背景,从我从业的角度来看,我觉得确实现在的大基础模型在自然语言的理解和生成里确实是取得了非常显著的进展。但同时我们也看到它还是存在一些显著的问题。比如说大家也还是能够看到它在生成内容的正确性,包括它是不是能够很好地为人类完成更复杂的任务。所以我觉得在这些方面还有很多的空间能够去进一步提升通用人工智能的水平。

包括提到人工智能对人类社会是不是有一些潜在的危机,我个人觉得可能还是要有一种非常积极乐观的态度去看待AIGC的发展。尤其是从ChatGPT开始,绝大多数很多人真切地是在工作或者生活中体会到了人工智能模型赋能人类,让我们在工作、生活、系统以及娱乐等方面,这些东西确实是极大地提升了我们的效率,让我们的工作更注重生产力和创造力。我是非常乐观的,我觉得现在人工智能的发展还是处在非常可控的阶段,对于人类社会的贡献还是利远远大于弊。

    

张家兴:其实我更多地是想从机器如何学习的角度,甚至智能如何学习的角度谈一下。其实整个机器学习的方法发展几十年了,从50年代就有了。实际上一句话就是怎么样让模型从数据学习的能力。AIGC的诞生应该是机器学习发展巅峰的结果,我们终于可以借助非常海量的数据有非常强大的算力,可能是很多人都无法负担得起的强大算力,终于可以让我们看到今天ChatGPT到这个样子。其实机器学习的方式一直没有改变,到底这样的学习方式和人的学习方式优点如何,这也直接决定了你刚才说的机器到底能达到人的什么水平,小学生、大学生,以后是不是能超越人类?我觉得这是非常开放性的问题。我只是给大家一个思考问题的框架。

首先认不是像机器这样学习的,因为人的大脑中从来没有这样的机制。实际上现在地球上有两种学习方式,机器学习和人类学习方式。机器学习的方式最大的优势是能学习的数据量比人学习的数据量大得多,人一生只能建10亿个token,现在预训练模型都要1万亿个token,量级大概是1000倍。这一点上机器是完胜,人一辈子能读几本书,机器可以把所有的书都读完。机器学习和人类相比有很大的劣势是没有进化的部分,人类的智能不是出生之后学习的这些内容,一个人在出生之后已经具备了一定的学习基础,如果几十亿年进化过程中,实际上我们都换算成数据和算力的话不是现在机器学习能比拟的。

最终到底是后天见过足够多的数据更有优势的机器学习方式,还是人类的学习方式,到底谁能战胜谁,这就是两种智能学习方式的互补。

    

潘鹏凯:你觉得现在的OpenAI几岁了?

    

张家兴:如果从考试的角度都已经达到大学生、研究生的水平了,如果从感情这种甚至更深刻一点意识方面,甚至说它还不存在,这就很弱了。

    

段楠:我们把这些模型全部拿来,发现这些模型已经达到了大学生甚至往上的水平。但是你确实是把它换一个考场做很多很复杂的逻辑类问题或者比较难的数学问题,也就是在小学生甚至更低的水平。所以这个问题我还是很难回答。

    

梅涛:关于这个问题,因为它是一个非常开放式的问题,我想从三个层面来讲。

第一,什么是AGI。第二,学术界的看法。第三,有没有可能性规避风险。

第一个问题什么是AGI,其实图灵测试是一个非常简单的AGI,真正要比较机器和人的智能,因为人是有五官,读看听说写想的能力,所以真要把一个人和一个智能体比较,还要比较语言能力、动作的能力。所以从这方面来说确实是机器人做到还不错的地步,包括我们自己做到的看图说话方面的能力做得挺好的。包括应付一些考试,我之前也做过机器人的行业,其实机器人移动的能力是远远不急于人类。其实我自己觉得现在的生成体离AGI还差得很远。

我自己一直既在学术界,也在产业界,学术界并不是赞同或者现在还有疑问,现在的方法论是不是代表了AGI唯一的通路。产业界如果一个技术一带突破,准确率从80%做到85%,或者从0到1,这个带来的工业界的影响力是非常大的,可能会给我们的老百姓一种幻想,是不是这个技术真的是能解决所有的问题,所以这里面有一些back up,我们是乐于看见到底今天的AGI和GPT的边界到底在哪里。

有可能我们怎么去规避潜在的风险,我刚才比较同意他们两位的观点,我认为目前的人工智能是可控的,怎么规避风险,我自己认为有一个框架,1+3的框架。1是人工智能需要有比较好的科技伦理的框架定义差,我们要让人工智能学习好的数据,算法方面现在是基于模型占主导优势,将来是不是有更好的算法,从应用角度来说在用的时候是不是应该加上一些合规的手段来控制我们的模型或者算法能够用正确的方式在正确的路径上。

    

潘鹏凯:你觉得它几岁?

    

梅涛:如果单纯从人考试角度来说确实是已经达到了大学生的水平,如果是做画的话确实是比我强。其实在很多联想意识方面,我认为还是非常早期的阶段。

    

潘鹏凯:AGI现在链接从神经原的角度是一个缺元的链接,但已经把我们人类所有的书看完了,人和它的能力差了不是一点点,我觉得之所以焦虑是有道理的。

第二个问题让我有一点尴尬,主持人前几天写了一个问题,问我怎么样看待AI的可解释性问题,昨天、前天、大前天刚刚有ChatGPT4可以解释ChatGPT2,让我最震惊的是实在发展太快了。我从1990年就开始学系统了,感觉一直在落后,一直在追赶。

换一个话题,你们觉得在接下来的发展是纵向的发展,比如说AI技术、AGI真正能创造一些人类没有创造出来的东西,还是横向地铺,它的极限就是人类最聪明的科学家的极限的边界,是各个细分领域的边界。到底是纵向的发展还是横向的铺。

    

梅涛:从我的专业来说,我认为目前在AIGC方面模型还是有很多的突破空间,文本创作、语言创作,目前GPT的已经到了万亿的水平,但是能力还没有到边界。但是视觉模型目前处于GPT1.0或者2.0的阶段。所以我觉得AIGC还是有很多的空间,从模型角度来说。

应用空间来说还是很大的,我们看到设计师、个人用户已经在积极拥抱AIGC的技术,一个设计师、美工出图的效率一天能画一张图两张图,但是AIGC已经能在几秒钟生成很多张的图,可以几天时间把全世界所有好的图片都看完。AIGC模型是一样的,可以把全世界所有好的高质量的文本都读完。所以我认为不管是从设计行业,还是从产品设计、美术设计,包括装修设计等等,还是有很多可以利用AIGC的技术,能够给行业降本增效,甚至创造很多新的机会。这也是今天创业创新的很大机会,底层模型的创新和上层、中间层、应用层都是非常期待的。

    

张家兴:关于横向和纵向,我的结论是横向和纵向都会有发展。说到横向就是基于当下大模型的技术推动各种产业、各个领域、各个垂直方向上的落地。这里面会存在一个很大的挑战,我们从商业的角度来说,这里面会存在很多的商业实体,比如说公司、团队、机构。其实我们知道在过往的商业中,每个商业成功都是依赖这样一个事情,这样一个商业实体拥有自己的技术产品,还有自己的场景,形成迭代的闭环,才能成功。我有更好的产品技术,就有更多用户、数据,回头产品和技术会变得更好。这个闭环还没有建立起来,很多公司还在调用通用大模型的API。只有当每个公司拥有自己的大模型的时候才可能形成自己的模型和自己的场景之间的闭环。如何帮助这些企业,能够让每个企业都能够拥有自己的大模型,我觉得这倒是我们在横向中需要去思考的事情。我们团队也有这样的愿望,我们通过技术不只是做出好用的通用大模型,同时也会去研究这样的技术和产品能够帮助到每个企业甚至每个个人,能够让他们不断地优化自己的大模型,跟他们的场景形成闭环。所以这是我们在横向上的想法。

纵向,今天OpenAI、ChatGPT4已经做得够好了,我们看到它能实现的只是冰山一角,作为通用人工智能,没有实现的东西远远多于已经实现的。当下的能力都是通过算法工程师通过机器学习的算法让它具备,在和人交互的过程中可以去学习,逐渐学成中学生、大学生的能力,显然这个模型现在是不具备的。我们一直说通用人工智能,其中有一点是学习能力,现在的通用人工智能是完全没有学习能力,学习能力是我们接下来要去攻克的一点。

包括能不能跟周围的物理环境交互做出决策,甚至以后能不能做一些自主的思考,都是通用人工智能要往下走的,都还是我们没做的。当然今天OpenAI看到了这条路是可行的,这就是我们说的纵向。我们不用只是把眼光摆在面前到底能做什么,GPT4的百分之多少,我们能不能做出当下还不存在的通用人工智能的功能,这才是致力于通用人工智能发展的人应该思考的问题。

    

段楠:其实刚刚梅涛和张家兴介绍得都很全面了,我再稍微补充一下。其实横向和纵向也和我们最近正在做的包括人工智能范式接下来的发展有一些很对应的看法。我个人认为比如我们提非常大的模型需要纵向看这个东西,我们希望这个模型能够有更强的推理能力。我们希望这个模型不仅仅只是受限于现在的文本、代码或者是图像,可以去覆盖更多人类的感官,比如说后面的声音、视频,甚至是未来会有触觉、听觉、嗅觉,这种大模态的基础模型能覆盖更多的人类感官这条线相对来说是一个比较清楚可以相对纵向往下挖的东西。

同时这和我们最近在做的工作是非常相关的,当这个基础模型强大到这种程度的时候,实际上就能当成一个调度员甚至是一个大脑的角色,这个时候我们之前在过去的几十年其实在基础模型之前,我们也发明过很多东西,从专家系统开始都是基于一些符号做一些精准的计算,一直到统计模型,包括很多监督学习模型,他们在特定的领域、特定的任务上做得非常好。所以现在我们从横向来看多了一个机会,原来那些很专的模型研究完了就完了,我们会对周围的这些东西产生太多的影响,因为他们并没有被连接起来。

现在我们有了基础模型,实际上能够去感知世界上所有的模型,并且把这些专家模型、设备给进行一个非常有机的连接。这就是我个人对于未来AI、研究范式的思考或者是展望,我觉得未来可能所谓AI的系统不一定是单一某一个基础模型,可能是一个模型网络,在这个模型网络里面,基础模型就充当大脑,调用的角色。通过链接其他很多功能,从组合创造出非常多新的任务。这里有一个好处,原来线性提升一些专家模型或者系统能力,你得到的增益也是一个线性的,现在我们有了这种基础模型,线性地提升之后通过组合就可以指数级地放大。纵向来看目标是相对比较明确的,但是从横向来看,从应用的角度,我觉得或许接下来一两年特别适合大家创新,找新场景的窗口期。我觉得横向纵向都有发展的时机。

    

潘鹏凯:你觉得AI什么时候真正创造出我们人类从来没有看到过的数学公式或者范式。

    

段楠:我觉得可能这个东西,比如以数学为例,我们发现它在创造力方面还没有达到人类顶级的数学家那么强的地步,但是它从已知的样本里面学习,样本背后对应的模板模式。,我们现在还是更多地想发挥和增强模型,抽取出背后规则的能力,并不是一个创造,而是一个归纳。未来可能AI  for science在创造力上面或许有更新、更大的突破。

    

潘鹏凯:我们问一个稍微具体的问题。您做开源社区好多年facebook拼命开源,谷歌反而要闭源。

    

张家兴:包括这次大模型迅速的发展完全是得益于整个开源开放的社区,我真的没有见过其他哪个社区包括计算机里面其他社区能做到如此开源开放。但是到了今天,确实我们所谓谷歌这些大场终于认识到一点,开源开放对于公司来说未必是好事,对于底下的团队或许是好事,团队做了开源,无论是个人,还是团队,对外影响力有了,以后公司不要我了,我还可以再去其他地方有更好的机会。但是对于整个公司而言,从CEO的角度来说这个事情确实对自己公司没有那么大的意义。谷歌看到了,我相信接下来其他公司也会看到。我预测未来大的科技公司在开源开放上一定会收敛的。所以接下来的开源开放将全部留给小的团队了。

但实话说这也会对我们这个领域的发展带来危机,我们现在是模型开源,和代码开源是不一样的,在服务器中居于绝对主导地位的操作系统,每个人都可以在开源代码上贡献,每个人贡献的是自己的劳动力,对于那些有技术情怀的人或者想从中拿到个人影响力的人来说,这个成本不是很大。今天要做开源模型的时候除了贡献劳动力,还要贡献算力,而且随着技术的发展,模型也会越来越大,算力的成本基本上就是这样的,作为个人和小团队很难承担得起来。所以我觉得可能未来对于开源社区不是一个好事。但是我们过去一直在做开源模型的团队,一直是政府支持我们的算力,我们当时就有这样的想法,当时中文里面开源模型就是很少。在整个世界范围里面,中文的预训练模型数量只占世界所有预训练模型1%,和中国的AI从业人员比起来微不足道。

接下来我说的可能会发生这样的趋势,把这个压力可能大的科技大厂都退出了,以前OpenAI是开源的,以前谷歌是非常open的,现在也不开源了。我们还是要利用我们有限的算力尽量为中文预训练领域贡献更多的通用人工智能大模型,能够帮助大家。

    

潘鹏凯:梅博士,很多创业者,也给大家一些建议,在这么激励的竞争下能够找到自己的定位。

    

梅涛:这一波人创业门槛很高,第一是人才的门槛很高,其实不是每个公司都能玩得起大模型,如果没有像段楠、张家兴这样的高手,模型不一定能出来。另外算力的门槛也很高,而且高精度的算力。如果是视觉模型的话,100亿的参数也玩不起来。数据门槛也很高,没有那么多高等的数据,数据的质量远远高于数据数量本身。所以今天的创业者既面临这么多高门槛的挑战,但是也有很多机会。我认为我们团队有三个可以供大家借鉴的优势或者起点。

第一,创业者团队如果是做一个硬核科技必须有高密度的科技人才,这个人才有可能是research science的。

第二,聚焦自己的赛道,我们聚焦视觉生成、文本图片3D的生成。

第三,跑得快,因为你的聚焦,你的团队百分之百都在这上面,一定要跑得快。我最担心大公司有足够的场景、足够的数据、足够的算力,我们能不能在这个小的领域比他们跑得更快,我认为这是今天一些创业者的建议。

    

潘鹏凯:我们最后收尾,从段博士开始,你预测一下明年2024年,十年以后AIGC大概什么样子?

    

段楠:我觉得第一是基础模型的发展还会继续往前走,它会覆盖和包含更多人类的感官,这是多模态大模型的发展。第二是模型的推理化任务的规划能力会越来越强,会找到自己的手和脚,学会制造和使用工具,就会有一个模型网络的东西让这个模型真的可以完成先我们很多想象不到的一些新型的创新性的任务。第三我们会从各种各样的角度让这个模型更可控、更可靠,而且解释性也会变得越来越强。

    

潘鹏凯:哪点是明年,哪点是三年以后?

    

段楠:我觉得一和二可能都可以在明年会有更多的发展,横向和纵向在接下来一两年是最关键的一两年,会有很多新的变化。

    

潘鹏凯:十年以后我们还在这还是不在了?

    

段楠:说实话我很难想象,我去年10月之前很难想象自然语言处理的模型能够解决原本我认为可能这辈子都无法解决的推理的东西,所以十年现在根本都不敢想,一年都已经是战战兢兢的了。

    

潘鹏凯:张家兴。

    

张家兴:先说短的一年或者两年,我认为现在大模型的技术,LLM要理解为是一个技术,这个技术一定程度上将替代原来深度学习的技术,而在所有的场景、领域去落地,就和当年深度学习也是革了之前技术模型的命,短期一定会看到的情况。

如果我们说十年后,刚才段楠说这个不敢想,我就斗胆想一想,我相信我说的事情,纵向的事情有可能会成立,终于可以在物理世界中和物理世界交互,甚至可以自己主动做一些思考。可能我们所谓的社会就不只是人类了,还有一些AI的智能体,和我们人类交互,也在执行一些任务,大家之间共同构成这样一个社会。说好听点是机器在向我们学习,说不好听一点其实我们也在向机器学习。形成人+机器整体的新的智能文明。

    

潘鹏凯:梅博士。

    

梅涛:我就斗胆想象一下十年后,我觉得十年后的场景令人期待。三句话。

第一,大模型会据多模态的能力。

第二,社会所有的行业都会大模型或者AIGC重构一遍,我们的生产力提高十倍以上。

第三,我们人类会诞生很多新的职业,我们人类当然也会被替代很多的职业,最终人类会创造出更多有创意的新的职业,我们人类的生活会更加美好。

    

潘鹏凯:大家的愿望都非常美好。

我听到最靠谱的是一句话,十年以后人们要么永生了,要么被灭亡了,这是比较极端的预测。希望我们能永生,谢谢大家!谢谢三位微软的院士。