2023年《麻省理工科技评论》“35岁以下科技创新35人”中国区发布将来到上海。本次论坛我们聚焦「Infinitas 未来无限」,我们将搭建一个展现“青年人”智慧与潜力的舞台,聚集全球创新人才和资源,让更多人见证他们不懈的探索和追求,让一点火苗点燃他们无穷的创造力。让上海与我们共同见证这片广阔无垠的舞台上,追梦者们绽放出耀眼的光芒。
以下是中国科学院杭州医学研究所研究员韩达在2024中国科技青年论坛精彩讲话,由云现场整理。
非常荣幸有这样的机会回到TR35平台来介绍一下我们的工作,我从2020年起就参与了很多TR35的活动,我觉得在中间找到了很多志同道合的小伙伴,也得到了很多启发。我今天主要想讲的题目是我们做的一点尝试,在核酸适体药物的从头设计角度做的一点工作。
目前不光是从事科研的,可能每个人都跟AI有非常多的交互和接触,从AI模拟的感知能力、学习能力、认知能力各个方面,在自动驾驶、人脸识别、图像处理,还有大家现在用的比较多的生成式模型ChatGPT,有了非常多的应用。在科学领域,AI的应用场景更广,在我们做实验、做科研的每个角落,都能帮助我们加速流程,来推动我们对很多学科的理解。
从发展历程来讲,有很多标志性事件,其中我印象比较深的是2016年,我们很多时候会看围棋比赛,当时中国、日本、韩国这些国家在围棋上比较强,后面因为有了Alphago出现,基本上没有人关注围棋比赛了,某种程度上赢不了计算机,所以大家也不care谁的围棋下的更好了。最近有一些蛋白设计的工具,包括deepmind的Alphafold,包括很多科研工作者会用ChatGPT、kimi,帮助我们写论文也好,帮助你写一段话也好。从发展历程来看,尤其现在的角度,很多人把它分成机器学习、深度学习到基座模型,基座模型可能是有很强生成泛化能力的模型,你把你的要求告诉他,他帮你生成一些你想要的答案。
我们课题组或者我们最感兴趣的还是AI for Biology,因为生物的数据量还是比较大的,而且很多规律是未知的,很多信息大家都不知道,很多AI for Biology的科研人员最关注的是怎么把这些信息结合起来,建一个model。由于算力能力的提高,模型现在的规模也非常非常大了,大模型时代,好像被认为2020年是大模型的元年,从最开始亿级别的参数到现在千亿级别的参数,人工智能的研究已经迈到了从深度学习慢慢往基座模型时代发展。这里面最重要的话题就是蛋白大模型,目前还是用深度学习的方法去做,但是现在已经有非常多的蛋白大模型在实验室和公司层面广泛应用,它就是把自然语言的模型往生物体系里推广,比如说语义识别,它可以推广到快速筛选,完形填空可以推广到定向进化,刚才西湖大学的王老师也讲了定向进化的工作。包括语义重组到功能的重编程,从文本生成到每个做实验的人都希望的从头设计。
蛋白质的体系里发展了非常多的方法,因为我自己不是做蛋白质研究的,可能我对文章的理解仅仅是我感兴趣的一些方面,比如可以实现蛋白的从头设计,我们可以拿到自然界没有的,发现它有一些同样的功能或者新的功能,这对于我们人类生物分子的设计提供了一些非常非常多的帮助。我相对比较了解的方向是核酸方向,相对蛋白来讲,核酸在大模型或者结构方面还是相对比较落后的。比如说从PVB的数据里,90%-95%的数据来自于蛋白,但是5%不到的数据来自于核酸,核酸的很多RNA结构我们是不知道的。相对蛋白来说,核酸结构的数目还是远远不足的。
另一方面,我们对于核酸在人类或者生物体内的进化规律,实际上我们也是不了解的,在这方面有一些研究工作在推动,比如说最早2021年有一个用深度学习模型来做RNA结构预测,后面因为数据库里的数据太少了,所以预测模型的通用性可能受到一定限制,后面大家把思路转为我可不可以做大模型,把生物进化的核酸序列都放在计算机模型里,让计算机学习,看看它怎么样能够帮助我们预测这个核酸是不是合理的核酸,它的结构有没有可能形成,大概这样一个基本的思路。
这个模型是目前最大参数的核酸基座模型,大概有70亿参数,它主要是从原核细胞里来learn生物的核酸进化规律,做基因组RNA和蛋白质设计。
我想讲的一个topic是从大模型和核酸预测角度,可不可以帮助我们设计一些核酸药物。我想讲的药物例子就是核酸试体,刚才杨老师讲RNA的核酸试体被用来做细胞的动态代谢物监测,已经实现了非常好的应用。还有一类的核酸试体应用场景就是做药,核酸试体就是一片核酸有一定的序列长度,大概几十个碱基的序列长度,能够折叠成三维的空间结构,和靶标有比较好的特异性亲和力。如果它的靶标是一些药物靶点,比如这是一个膜蛋白或者代谢过程中非常重要的蛋白,它就可以起到药的作用。从药的作用角度来讲,它可以做几类,比如做拮抗剂,蛋白就不能行使功能了。还有激活剂,结合了以后,蛋白的功能就激活了。还有降解剂,还可以做靶向递送剂。90年代开始到2000年之后,核酸真正开始做研究,大概有了两款FDAP的药,有一款FDAP认定的孤儿药,但是还没有批,满打满算三个药。在我看来,对药物研发来讲还算挺快的了,也有一些药在临床试验,大概的市场份额预计将来可能几十亿美金的规模。核酸的特点是像小分子药很多时候是体外去筛,它可以通过实验学的方法去获得,所以在药物开发角度它有很多方法,之你有靶标,我就能给你找到合适的核酸试体。它的获取方法目前来看还是通过体外的筛选,体外筛选方法固然有很多优点,但是它面临一个很大的问题,我们需要人力去筛,用实验人员一轮一轮的筛,筛完以后扩增,扩增完以后再筛,它的筛选成功率相对比较低,我们实验室做过一些尝试,大概筛选的成功率在10%-20%左右。
可不可以通过计算学的方法或者人工智能的方法,通过虚拟筛选来解决这个问题,这就是我们课题组一直想做的一件事。我们做这件事的主要逻辑就是通过两块,一块是我们想开发一个基座模型,这个基座模型可以学习生物基因组的进化规律,它可以告诉我,我随便拿到一个序列,它有没有可能是一个功能序列。对于比较长的序列,它有比较强的建模能力。我们建了另外一个模型,这个模型的主要目的是学蛋白的结构,把蛋白和核酸相互作用的事情研究清楚,把这两个东西结合起来,就是能做一些真正的核酸试体的从头设计。如果你有一轮筛选的数据,也就是你拿到了一轮跟蛋白相互作用的核酸序列信息,这个信息的数据量还是挺大的,因为里面有无数的靶标、无数可能的核酸试体,以前我们拿到这个信息之后,挑前五位或者前十位的核酸,拿它的序列来做测试,这时候还是有一定失败率的,很多时候核酸试剂不一定是富集程度最高的序列,但我们现在的模型可以做到你给我一个筛选数据,给我一个蛋白的数据,我把它放到模型里以后,我就能从里面挑到一个非常好的核酸试体,这是我们在转录因子和实验蛋白上得到的验证,我们能够生成一些核酸试体,它的亲和力比我们筛选到的核酸试体前十名更好,而且它的序列并不相似。我们希望这样的基座模型能进一步推动相关领域的发展。
我们这个项目主要是跟浙江实验室和我们自己课题组的几位老师一起来推动。我认为在生物大分子的设计和生存上,AI能力是绝对不可小视的,而且确实能帮助到我们科研人员做更高效、更快速的工具获得。我的报告就到这里谢谢大家!