自1999年起,《麻省理工科技评论》每年在全球范围内从生物医药技术、能源材料、人工智能等多个前沿学科和科技领域中遴选出35岁以下对未来科技发展产生深远影响的青年科技人才-“35岁以下科技创新35人”。2017年《麻省理工科技评论》将这份最权威的榜单落地中国,旨在以全球视野挖掘最有创新能力的科技青年领军人,并为这些青年科学家搭建一个高度国际化的舞台。

为聚集全球创新人才和资源,打造创新人才高地,中关村科学城与北京清华工业开发研究院联合《麻省理工科技评论》中国,于2023年3月30日-31日在北京·海淀中关村自主创新示范区展示中心会议中心举办全球青年科技领袖峰会暨《麻省理工科技评论》“35岁以下科技创新35人”中国发布仪式。


陈雨强.jpg

以下是第四范式联合创始人、首席科学家陈雨强在全球青年科技领袖峰会的精彩演讲,由云现场整理。


大家下午好,我是第四范式联合创始人、CTO陈雨强,今天非常高兴有机会跟大家分享一下关于人工智能和AIGC相关我们的看法和我们的实践。

人工智能其实是一波一波的,其实一直从人工智能发明以来不断的经历这样一个轮回,类似于狼来了那个轮回,人工智能要把人类毁灭了,然后说骗子,然后又说要毁灭了,又说骗子,从刚发明的时候,1956年开始当时十年的时间有很大的进展,当时科学家认为在很短的时间内,5-10年之间,最开始的六几年,七几年的时候,他们就认为人工智能已经能达到人类儿童的水平了,但是其实失败了。

第二波兴起的时候是公众所知道的是深蓝,它代表了人工智能那一次的兴起,说人工智能非常厉害,后来发现人工智能没有特别多的应用,然后又觉得人工智能是个骗子,当时有很多解释说深蓝可能不像真的人工智能,因为深蓝无非就是计算机算的快一点,当然就比人厉害,当然人类觉得围棋这个事情特别厉害,19行,19列,361个点,哪一个要有黑子白子和不放子,3的361次方这么大一个空间,也就是宇宙上所有的粒子都没这个大,要是在围棋上比人类厉害,我就认为你人工智能产生智能了。

后来发现比较重要的2016年李世石跟AlphaGo打输了,人类又觉得人工智能又厉害了,又觉得人类要被人工智能消灭了,又觉得各行各业要被人工智能改变了,后面又发现确实有很多应用已经改变了社会,但是最近几年可能又没有那么的热了或者说又消沉了,但是最近一次兴起就是2023年这个ChatGPT的兴起,让人类又看到了希望,又觉得人工智能变的特别厉害了。

我说这个图的意思是想让大家看看人工智能背后到底是什么在发展,是不是人工智能三要素,数据、算力和算法在发展,当然这些都在发展,实际上这些一代一代的发展背后,除了生产要素在发展之外,还有一个核心的它的背景叫做VC维在不断发展,VC维是两个人工智能统计科学家发明的一个理论,一个姓V,一个姓C然后叫VC维。

这个VC维衡量人工智能模型的复杂程度,可以类比成人脑的脑细胞的多少,人的脑细胞比小白鼠的脑细胞多,我们认为人比小白鼠聪明,同样的,VC维越高模型我们叫做大模型,大模型哪里大,是什么大,是体积大吗?不是体积大,是VC维大,那个叫大模型,VC维大的模型就比小的模型来的更聪明,所以说从这个视角上重新看人工智能的四大发展,其实发现人工智能发展的历史是不断提升模型规模,模型VC维大小的历史,从一开始的人工智能刚发明的时候,任何一个人说我怎么样机器应用智能,当然是把我的知识告诉它,它就拥有智能了,这就是所谓的专家系统,就是用机器执行人类专家写的少量规则,少量规则的VC维就低,脑细胞就少,就不久聪明,只能做一些专用的小模型,当时做一些医疗,这跟很多问诊差不多,问你体温怎么样,问你有没有发烧,然后判断你是新冠不是新冠,这是第一代的人工智能。

第二代的人工智能是用机器写少量的规则,发现人类专家写的少量规则不太这么实用于真实的场景里面,有太多的特例了,已经不能使用在真实的场景里面去了,第二代就是用机器写少量的规则,这个里面也有很多先进应用,我们发现这些应用里面要达到跟人类似的水平还是非常难的,第三代就是在大家生活的背后已经广泛用上的并且对大家有非常重要的推动作用的一代,专用的大模型,其实它的VC维已经非常高了,然后用机器写大量的规则。

典型的应用领域是搜索推荐跟电商,现在可能大家都熟知,GPT-3在2020年达到了1750亿的参数规则,但1750亿的参数规模在人工智能领域里面并不是一个特别稀奇的事情,早在2010年之前的时候,谷歌就已经达到了千亿水平,国内的百度、字节已经在2010年时候都达到了千亿VC维的水平,所以说专业的大模型这个事情其实是非常早就发生了一件事情。

但是当时有一个问题就是这些专用的模型只能做一个任务,做推荐的不能做搜索,做搜索的不能做问答,做问答的不能做图像,只能是单任务的一个大模型。

再往后面其实是一个迁移的大模型,是一个通用大模型,我们发现它能解决很多的问题,过去的NLP的模型不管大还是小,只能解决特别确定性的问题,但是现在可以解决很多的问题,从这个视角来看,人工智能在决策领域,最开始第一代就是决策领域的八个凡是,大家听电信反诈骗的八个凡是,凡是公安局要求你汇款的都是诈骗,这就是所谓的第一代的专家规则。

第二代就是比方说要判断你是不是骗子,你会不会不还钱,给你写一个评分卡,这个评分卡评的分的权重是由机器学出来的,第三代是一个专用大模型,这样一个技术能够抓大放小,由原来几十个评分卡的特征变成几千万的特征,就可以让整个有大概6倍的提升,到最后就是对决策的大模型来说,就是把很多领域的很多任务放到一起,形成一个大模型,CB领域也是类似的,从一开始人类研究人怎么看,生物怎么看,研究VC维皮层,到机器用这些人类找出来的专业特征写这些特征的权重到机器写一些大量的规则,通过深度学习的方式,它的VC维变高了,脑细胞变多了打败了人类到2015年的时候,在图像分类的领域上打败了人类,现在其实我们的图像也可以做各种各样领域的应用,其实也是这样的过程。

从这个视角重新来看看深层次NLP这个模型背后的产业的应用,大家都觉得这个ChatGPT是非常神奇的一个技术,非常神奇的应用,效果非常好,但是NLP这个领域背后是什么样的原理,一直在解决一个问题,就是从海量的语料中找出语感,这个指的是给你前面几个字,比如说我爱北京,让你告诉我后面几个字是什么,作为一个中国人来说,我爱北京大部分人说的是天安门,也有可能说的是电视塔,当然很少有人说我爱北京其它的爱马仕,这个虽然说也对,但是可能很奇怪,不像是一个正常中国人语感能说出来的。

这个叫做语感,什么叫做强的语感,什么叫弱的语感,早期的技术语感比较短给你前四个字,对出后三个字,这个N不会太长,不会超过九,只能看前面几个字,然后对出后面几个字,但是通过Transformer这样的技术,我们可以把这个拉的非常长,现在的GPT-4可以看到前面25000个字,然后给你一个很长的回复,这是非常强的语感,但是有了这个语感还不够,就像语文老师讲的一样,你会了认字、组词、造句和写文章以后,下面跟你说的问题是不能写的文章只是辞藻华丽,用词正确,没有错别字但是言之无物,观点错误,这个事情不行的。

语文老师也告诉我们说你必须懂各种各样的知识,你得懂天文、地理、物理、化学这样的知识才能写出正确的文章,NLP领域的科学家们也在做同样的事情,那他怎么做的,就是类似于让语文老师教所有的学科,让语文老师教历史,教数学,教编程,这个事情能不能做到,可以的,语文老师教你历史的方式不是教你历史当时的背景、环境、上一代的帝王、生产力、生产关系,不是的,他只给你看很多的文章,看了足够多的文章的时候,再说秦始皇的时候,也能回答出灭六国,书同文、车同轨,统一度量衡,你也可能说秦始皇焚书坑儒,有不同的回答,这些回答都是符合历史条件和历史规律的,这个叫做语文老师教你学习历史,语文老师能不能教你学编程,可以,不是说各种各样的算法,是给你看全世界所有的代码,然后看到这些代码以后,自然就知道写几行,告诉他我想干什么事情就可以帮你去写。

随着参数不断变大的情况下,OpenAI给五千亿的单词,给了很多参数,让它拥有了各种能力,但是刚刚也提到了一个ChatGPT或者GPT这类的技术都有一个通用的技术特点,就是这类技术里面一部分的参数或者说脑细胞记忆下来的是生成式的语言模型,记下来是认字、组词、造句和写文章的能力,但是更大一部分的参数记下来是全世界的知识,也就是说如果说你拥有全世界的知识,一定意味着在任何的专业领域都是不专业的,因为很多的专业里面没有公开的知识或者说很多的专业领域是保密的领域,根本不可能得到专业的知识。

所以说全世界最好的技术,比方谷歌的技术,New  Bing的技术依然会出现这种问题,不是说它们的技术不够好,已经是做到最好了,但是GPT这个技术但凡是这类的技术,你就一定会胡说八道,这个事情是不可避免的,为了应用这样的技术,我们也跟很多客户聊了一下,他们会发现生成式的技术在企业落地的时候面临很大的挑战。

第一,内容可信的风险。

第二,数据安全。

第三,落地成本高昂。

很多客户认为GPT不能直接对人,过去的对话,大家会觉得比较愚蠢,对的问题不能做一个变换,但是可以相信它这个回答是对的,因为所有的问题都是检查过的,但是GPT的时候不敢假设是这样的,虽然说会非常聪明,问什么问题都给你回答,但是不能保证比方说作为一个招行的GPT不会说我是工行的,不敢说你问它一个招行的一个产品价格,把这个价格改了以后告诉客户,这些事情如果说发生的话,我们的客户一定是不能接受的。

如果说真正在企业中应用,而不是把它当做一个茶余饭后的谈资的话,内容可信是绝对要解决的第一个问题,第二个是数据安全,现在也有很多的文章提到,高盛、花旗。摩根都已经禁止自己的员工使用ChatGPT了,如果说他们在研究自己的投资标的的时候,把自己研究的标的和方式都以问题的方式包括自己内部的材料都以问题的告诉给了OpenAI,告诉给微软的话,微软只要通过IP的选择就知道了这些工作在研究什么样的标的,这个一定会对他们的收益产生比较大的影响的。所以说数据安全一个非常大的对于企业应用来说一个隐患。

第三块是落地成本非常高昂,OpenAI花了10亿美元完成这样一个技术,我们的企业到底要花多少钱才能拥有这样的技术,这个地方第四范式也做了一些尝试,解决这样的一些问题,第一方面是内容可信,我们认为其实我们在帮助企业内部的时候,更多是需要用企业内部专业的知识,所以说在企业内部专业知识库的帮助之下,再加上有一个足据溯源,保证每一句话都是有来源的时候,这样的一个内容可能是一个可信的内容。

为了保证数据,我们认为一个私有部署的环境是必须的,否则没有办法保证整个企业,整个数据内部的闭环。

第三块成本可控的角度来说,我们认为其实企业要的只是自己内部的知识这样一个语言生存的能力,不一定要全世界所有的知识,所以说把模型适当的进行减小的情况下可以大幅降低整个应用落地的成本。

把企业各种各样的数据,不管是数据库、视频、图像、多模态的技术接入之后,可以以多模态的方式进行交互,所以说未来很多的应用都会被改写,比方说我们在门店管理的时候,一个店长直接可以问门店相关的信息而不用大屏的方式做,因为我可能每天都会有不同新的要洞察的点在这个里面。

同时可以做很多的店面管理,在物流管理之上同样可以用语言的界面问物流的情况以及语音的方式,比较快速的查到自己业务的情况。

对于工业设计的情况,可能要寻找自己的一些零部件,甚至是一些3D的零部件,这样多模态的方式可以让它比较快速的做自己的生产设计,仓库管理方面,我们可以用这样的多模态的方式比较快的看到我们上传一些视频,就可以看到是不是有一些违规的操作,这样一些产品形态在接入企业之后,我们认为可以大幅提升企业生产效率,这也是我们现在看GPT类似的技术如何应用在企业之中自己的一些思考,我的分享基本就这些,谢谢大家。