自1999年起,《麻省理工科技评论》每年在全球范围内从生物医药技术、能源材料、人工智能等多个前沿学科和科技领域中遴选出35岁以下对未来科技发展产生深远影响的青年科技人才-“35岁以下科技创新35人”。2017年《麻省理工科技评论》将这份最权威的榜单落地中国,旨在以全球视野挖掘最有创新能力的科技青年领军人,并为这些青年科学家搭建一个高度国际化的舞台。
为聚集全球创新人才和资源,打造创新人才高地,中关村科学城与北京清华工业开发研究院联合《麻省理工科技评论》中国,于2023年3月30日-31日在北京·海淀中关村自主创新示范区展示中心会议中心举办全球青年科技领袖峰会暨《麻省理工科技评论》“35岁以下科技创新35人”中国发布仪式。
以下是北京邮电大学研究员、博士生导师王光宇在全球青年科技领袖峰会的精彩演讲,由云现场整理。
尊敬的各位来宾、各位专家,大家下午好。我是来自北京邮电大学的王光宇,很高兴参加今天的峰会,我今天分享的题目是《问题驱动的信息智能的交叉研究》。
近年来实际上智能算法在不断的一个演进过程,我们近年来的整个深度学习的一个发展,包括成为我们一个计算非常重要的构成,另外近年来AI机器的大规模发展,实际上推动了我们人工智能的技术到了一个大规模的产业化临界点。
这个是故事的其中一端,另外一方面我们可以发现近年来整个AI for Science这样一个科研范式,也是一个不断的转变过程中。最近我们科技部启动了整个人工智能驱动的科学研究的一个专项部署的活动。
我们可以看到无论从产业界还是整个研究领域的话,实际上我们整个智能的计算都在处于一个变革的临界点,回到我本人从事的这样一个研究领域的话,实际上我们主要是从事两个方面的研究,一个我们是如何去基于做一些生物技术启发的智能计算的新方法,同时我们也希望通过更好的智能和计算的技术可以更好的量化、分析和调控我们的整个生命,更好的提供攻克疑难重症的工具。
前期也在很多层面做了很多的工作,比如说基于多模态跨时空的融合方法做了一些诊疗新模式、健康新维度的研究,另外我们也通过多组学一方面的研究去加速我们对整个机制的发现,同时我们也做了一些整个行业应用的探索,也获了整个2021年世界互联网领先科技成果奖。
以上实际上是我们前期做的一些这方面的工作,因为今天组委会给我的问题是说如何从研究到落地或者说如何做真正的整个复杂开放环境下的工作,其实在这样一个复杂开放的环境下的话,我们整个信息智能技术是面临着很多这方面的挑战,比如说我们的健康数据要素如何安全流通、安全共享的问题。
或者是我们如何建立我们一个更好更安全鲁棒的智能模型,因为我们知道这个模型是非常容易受到对抗的扰动的,同时我们也更希望融入到整个环境中,我们希望建立以人为中心的语意计算和自然交互的方法。
接下来从刚刚提的这几个问题进行展开介绍,首先是整个健康医疗数据要素安全流通的层面,实际上近年来有很多底层的技术,比如说区块链的技术,我们可以通过区块链技术更好的构建整个数据层面安全可信的流通环境,还有联邦学习技术,是一个分布式的机器学习技术,实际上可以更好的实现数据不动模型动这样一个新的应用范式,当然现在也会衍生出不同的一些学习架构,比如说中心聚合式或者是多中心的一些模式。
基于此,我们团队做了这方面的工作,比如说做了一个基于数据要素安全流通和智能协同的计算框架,这样一个平台我们可以实现从底层的区块链数据要素的流通到上层可信的联邦学习计算的这样一个能力,我们实现的就是说可以按照实际的生物医学场景或实际环境下它的需求实现弹性的配置。
我们这里平台还有很多这方面的能力,比如说内置了这样的隐私计算等等一些算子或者多模态大数据标准化的一个能力,当然我们这样一个平台现在是可以非常快速的自动化的实现部署,所以我们这样一个工作实际上最近两年是跟很多的一些研究机构进行了一些合作,我们也解决了很多真实的问题,比如说数据异构的问题、高效通信的问题,也有很多这方面的工作在路上。
第二部分的挑战实际上就是AI模型的安全鲁棒的问题,这个尤其是我们在生物医学环境下,实际上是一个非常重要的命题,尤其是这个模型的安全,在这方面我们实际上也做了很多这方面的工作,并且我们承担了国家的课题,对这方面做了很多方面的探索,我们从整个通用场景、百盒攻击、黑盒攻击等等去系列的开展这样一个通用的评价和对抗测试的一些研究和应用示范,其实生物医学环境的话,相比较于自然场景的话有很多自己独特的挑战,这个我们如何解决它,如何保护我们的语意这方面的问题,我们也做了很多的探索。
这个是一个更有意思的研究,其实我们知道人脸实际上是可以蕴含着生物的很多健康或病理信息的,前期做了一个基于移动设备的高精度的3D数字人脸建模,这个过程中我们发现如果人工智能模型去预测人的病理或疾病的时候,实际上预测的不是疾病,很多时候预测的是年龄,所以如何去除这样一些模型的偏移,我们也做了一些工作,包括通过资讯对抗的训练等等去很好的去除模型的偏差问题。
我们在算法研究的基础上,我们进行了一些平台的开发,包括其实在联合中国食品药品检定研究院开展现在整个医学人工智能产品上市前的审批测试,以上的话其实主要在讲智能信息处理如何解决复杂环境下的问题。
这个问题的另外一端就是说实际上会涉及到很多跟人交互的问题,就是如何解决专家决策,这个过程中我们就需要做语意的计算,而且需要去以人为中心的自然交互或者是语意对齐的工作,这里我们需要涉及到很多的自然语言处理的技术。
我们其实传统的自然语言处理会有典型的任务,而且是分阶段式的,我们会有很多底层的技术,比如说会做信息抽取、分词等等,还会做很多上层的一些更系统的应用技术,我们其实最近非常火的大规模基础模型,实际上可以极大的促进了传统自然语言处理技术的进步,尤其是比如说可以促进实际上可以实现以人为中心的新型的交互接口,所以可以实现端到端的任务,另外也可以实现更好的基于人为中心的自然交互或者是语意对齐。
我们就会想说现在ChatGPT大模型这样火,从我们专业领域要做什么,实际上其它大家都很熟悉,像ChatGPT是一个基于生成式的自回归的生成模型,它的问题就是恰恰在于此,非常容易产生幻觉或者是生成不存在的知识,我们对于生物医学领域是非常可怕的,就需要如何更好的结合非常庞大而且复杂的生物医学资料融入到这样一个大规模的基础模型,然后加速生物医学的发展,这个是我们非常值得思考的一个问题。
我们前期团队在这方面做了基础的工作,比如说提出了基于Prompt learning和知识增强的生物医学语言计算,可以更好的实现很多通用的自然语言理解的一些任务。
更进一步的我们会想对于我们这样一个专一门类的领域,特有的领域,比如说生物医学领域,我们还能做什么,我们其实还有很多从我们的角度思考的,比如说如何做领域知识的增强,刚刚也提到了很多,另外涉及到如何实现多模态的理解,因为我们最终希望建立一个类似于专家的推理决策的功能,最终实现终身学习的知识的闭环。
我们总结一下,随着现在很多新技术的涌现,我们从学术界也会考虑有很多的困惑,我们是不是在追热点或者要不要做很多这方面的探索,其实我觉得我们仍然有很多工作是可以做的,尤其是从专门的领域来看的话,对这个领域有很深的理解,其实可以做很多这方面的探索和工作,比如说这里也提到了一些信息化或者是加速医药研发这方面的工作。
未来我们还是说希望一方面去做一些这样更好的通过我们的问题驱动解决复杂开放的环境下,很多计算的问题,另外一方面希望如何通过更好的智能计算的方法可以去加速我们对很多科学的认识,我们可以加速对生命科学的认识,对疾病的认识等等。
未来我们仍然在很多可以探索和爆发的前面做一些工作,我今天的报告到此为止,谢谢大家。