解释不是真正的理解,创造才是。

作者 |饶舒玮‍‍‍

编辑 |吴彤‍‍‍

“做科学研究,不仅要认识世界,更要改造世界。”

曹洋在自己的个人实验室网站上,将物理学家理查德·费曼的名言放在了显眼的位置,让每一位网站访客都无法忽略。“What I cannot create, I do not understand.”这是他以自己的方式提醒自己和所有科研人员,莫忘初心。

20 年前,曹洋坐在中科院挤满人的大礼堂里,上一门叫做《生物信息学》的课,台上讲课的是“中国生物信息学研究开拓者”——陈润生院士。在陈润生院士的启蒙下,曹洋进入了这个当年甚至还不是一个明确二级学科的新兴领域。

如今作为四川大学生命科学学院副教授的曹洋,已经在生物信息学领域深耕数年,具体研究方向包括药物分子设计算法与应用、蛋白设计和三维结构预测及序列分析与功能预测。

在曹洋看来,科研工作不能仅停留在认识层面,只有研究成果转化为实际应用,真正做到改造世界,这是他做科研的初衷。在未来,他希望在 AI 技术的助力下,药物设计领域能达到“画好图纸”就能“盖好房子”的水平,让前期准备工作完美落实到实验阶段,提高药物研发的成功率。

近期,2024 年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办。来自四川大学生命科学学院的曹洋副教授受邀参会。

借此契机,曹洋副教授与雷峰网进行了深入对话。以下为对话全文(经编辑):

敲开生物信息的大门‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

雷峰网:从学科背景来看,您在本科阶段学的是应用物理相关专业,为何硕博时期转向生物信息学?

曹洋:本科时期我对物理比较感兴趣,所以选择了应用物理大方向下的电子科学技术专业。到了研究生阶段,我有幸进入中科院的生物物理研究所学习。

在 2004 年中科院入学的时候,新生要在各个实验室轮转,然后双向选择确定导师和研究方向。我当时有考虑过选择结构生物学,用 X 射线衍射方法解析蛋白的三维结构;也考虑过神经生物学,看人的认知是怎么建立起来的。

最后下定决心学生物信息学,是在研究生一年级上了陈润生院士和凌伦奖老师主讲的《生物信息学》之后。课堂上讲了很多让我耳目一新的内容,比如怎么把生物学问题变成数学问题,非常引人入胜。我还记得当时上课的场景,研究生院的礼堂万人空巷,水泄不通,很多同学没有位置,只能坐在走道上听。陈老师的讲课内容对我来说是一个很好的启蒙,受益匪浅。

那时从事生物信息学研究的蒋太交教授刚好从国外回来组建实验室,我被他有关蛋白结构预测、设计的研究吸引了,因此成为他的第一批学生。

那时候生物信息学还不是学科体系下的二级学科。我入学的专业是生物物理专业,到我毕业的时候,毕业学位证上变成了生物信息学。

雷峰网:您在本科学习的物理学知识,对您之后的研究工作有没有影响?

曹洋:影响还是挺大的。因为生物信息学是交叉学科,对数理的要求比较高。特别在早期,很多算法和软件还不成型的时候,需要自己去做开发,理解背后的原理。而我做的生物信息方向和分子模拟非常相关,比如蛋白三维结构预测,需要在结构的基础上分析生物学功能,其中会涉及到计算能量、相互作用、自由能等,如果前期没有数理知识作为基础,后面很多问题理解起来肯定会比较困难。

我也注意到,在生物信息学领域,物理学、计算机背背景的科研者比较偏向方法学研究;而生物学背景的则偏向生物学问题研究。所以不同的学科背景对后续科研方向有潜移默化的影响,但学科背景不是绝对因素,只是有这样的趋势。

雷峰网:在您看来,进入生物信息学这种跨学科领域,需要具备什么样的能力?

曹洋:我认为,要有很好的逻辑思维能力和很强的学习能力,能够迅速掌握相关的学科知识,并懂得如何在研究中运用上。

你会发现,在这个交叉学科里,需要综合应用很多专业的知识来解决具体问题,不可能只学生物、化学等某一学科的知识就足够,而没有谁是能够在大学本科就把各个专业知识都学完。所以从事前沿工作,一定要有开放的心态,有很好的自学能力,才可以跟上整个领域的发展,有进一步的创新突破。这是我这些年感受非常深的一点。

雷峰网:在中科院生物物理研究所学习期间,您的主要研究方向是什么?

曹洋:我当时主要做蛋白质三维结构预测的算法和应用。2010 年,我所在的蒋太交教授实验室所研发的蛋白质结构预测方法,进入了国际蛋白三维结构预测比赛 CASP 的前二十名,是当时国内参赛队里成绩最好的。此外,我还研究了一些生物学问题,包括流感进化突变带来的影响,比如在结构建模分子模拟的基础上,研究流感病毒和细胞受体之间的相互作用。

雷峰网:您在结束学业之后没有进入企业,而是选择高校继续科研工作是出于什么想法?

曹洋:我个人偏向在学术方面进行一些比较自由的探索。在高校的话,可以根据兴趣去选择研究课题,但在企业可能没有办法实现。当时刚好有一个机会,就入职四川大学了。


‍‍‍‍‍

AI 入场药物设计领域后

雷峰网:请介绍一下您现在正在进行的研究工作。

曹洋:我们课题组主要研究是围绕计算机辅助药物设计展开的。这几年,我们团队将重心放在了做生物医药相关的算法和软件的开发,同时进行一些针对具体靶标的药物设计与筛选。在计算机设计方法不断落地,促进药物研发的历史进程中,我们希望贡献一份力量。

雷峰网:您如何看待目前的药物设计开发领域的发展?在开发靶向药物的计算方法方面,您有哪些研究成果可以分享?

曹洋:此前,在蛋白三维结构预测领域有一个很大的突破——AlphaFold。在药物设计开发领域,我们也期待能有这样的突破。尽管现在出现了一些新的算法和技术,但还是跟生物医药研究的实际需求有很大距离。我们团队开发了一系列的分子模拟计算法方法,比较有代表性的是分子对接 CB-Dock 系列。

雷峰网:请详细介绍一下上述全自动化分子对接算法 CB-Dock 的优势?

曹洋:这个算法平台的核心优势在于其高效和准确,用户使用门槛低。

首先,它能准确识别靶标的分子结合口袋。这里采用了前期开发的算法 CurPocket,它基于分子的表面曲率,可以在给定蛋白质三维结构的情况下提取到其分子可能结合的口袋。这个口袋识别算法和下游计算能够很好地匹配,使整个过程实现全自动化。

其次,它的分子对接可以学习已知的分子互作信息。我们开发了算法 FitDock,内置在 CB-Dock 里,在预测新分子与已知靶标的结合模式方面有很大优势。

再有,我们在 CB-Dock 的软件开发和维护方面很用心,使得操作软件和分析结果都比较容易。它面向的是广大生物医学研究同行,能一定程度上减轻他们的学习负担,更聚焦在研究具体问题上。

雷峰网:这套算法平台现在使用率如何?

曹洋:我们这套计算服务器已经发布五年,国内外同行提交了超过 30 万次计算任务,现在每天的使用量都有超过千次,相关论文的引用数量也上千。我发现在一些社交平台都有这款软件使用的视频,是国内外同行的使用体验和推荐。对此我觉得由衷高兴,感到我们的努力对社会是有用的。

这套软件用户来自世界各地,我常收到用户的邮件,咨询相关的问题,也有为我们在改进软件方面出谋划策。比如前段时间我们服务器的安全证书到期了,没有及时去更新,就有好多用户给我们发邮件说遇到问题了,问我们能不能赶紧解决。也有一些企业联系我们,申请使用软件的授权。

雷峰网:接下来对于这套算法软件的迭代更新有什么方向吗?

曹洋:前段时间,有一个斯坦福的用户给我们反馈,他建议可以在计算的过程中研究怎么样合并不同对接算法的结果,还提到了批量的受体提交模式。因为现在这个软件是一个受体对应一个配体,只能单个提交。这位用户希望可以添加批量化提交的方式,这样他们可以利用其做小规模的横向对比研究。我觉得这是一个比较好的建议,还是得想方设法满足相关研究的实际需求。

雷峰网:我注意到您的团队还建立了 AbRSA,AbAlign 等抗体分析算法,请介绍一下该算法的开发过程

曹洋:我们也关注抗体相关的研究,这是生物药里的主要类型。前些年,我们在做抗体人源化设计的过程中,遇到一个难题,就是业界的各种分析软件都没办法对手头上的抗体样本进行识别。这激发了想要我自己开发相关算法的念头,我们花了一年多的时间,开发了一款抗体可变区编号算法 AbRSA ,解决了我前面遇到的困难。

这款算法对各类抗体或者 BCR 序列有很强的适应性,能准确地界定 CDR 区域、FR 区。在此基础上,我们又进一步提出了抗体专用的多序列比对算法,可以对超大规模的抗体/ BCR 数据测序进行处理,进而帮助抗体的筛选和设计,同时也可以作为个体免疫状态的分析。这些算法的源头,都是我们在解决实际问题中想到的。

雷峰网:这个抗体分析算法的实际应用效果如何?

曹洋:软件在发布后吸引了非常多用户,包括国外很多知名的高校,还有像美国 FDA 食品药品监督局这样的用户,以及国内的一些专利公司和做创新药物开发的公司。现在在这个领域,国际上能获得的类似计算工具大概就三款,我们是其中之一。

雷峰网:您觉得这款软件在同类型中的核心竞争力是什么?

曹洋:从算法角度上讲,它的健壮性更好,能超快速度处理大规模数据。因为抗体从基因重排到体细胞超突变,其中的多样性非常大。若想在不同序列模式上进行准确界定,就需要从算法上做比较细致的优化。

雷峰网:除了算法方面的研究成果,请分享一下您此前设计人工蛋白的科研过程?

曹洋:在十年前,要想设计全人工蛋白,大家都觉得这是困难的事情。即便前有华盛顿大学的 David Baker 教授的成功经验,但对于普通实验室团队或者没有深入了解这类研究的人看来,完成全人工蛋白的设计还存在很大的困难。而且这类实验的成功率很低,经验不足就容易失败。

我进入人工蛋白设计领域是 2016 年到 2017 年期间,当时我正在美国密歇根大学张阳教授的实验室做访问学者,在那时候参与了 EvoDesign 的开发与实践。我当时做了几个靶标,包括 EGFR 这些靶标的结合蛋白设计,比较成功地设计出了高亲和力的人工蛋白。

在设计出人工蛋白之前,我个人对这个领域还有很多怀疑。做完之后我发现,人工蛋白完全可以走向应用,相信在不远的未来,它会在生物医药研发中大放光彩。

雷峰网:您觉得人工蛋白设计技术现在发展到什么阶段了?

曹洋:我感触特别深的是在 2020 年以后,AI 技术被大量引入蛋白设计领域,可以观察到整个领域都蓬勃发展起来,其中不乏一些极富创意的设计新思路。

不仅仅是像 David Baker 团队这样的先驱,还有很多实验室都取得了长足的进步,比如说科大刘海燕教授的从头设计氨基酸序列算法 ABACUS、SCUBA,计算所卜东波教授的蛋白质序列设计算法 ProDESIGN,北航叶盛教授基于电子密度的设计算法 CUTEDGE 等,都像雨后春笋一样被提出来,并且还有很多成功应用的案例。

同时,我们也看到了很多企业在往这方向发展,他们对人工蛋白设计技术表现了很大的兴趣。人工蛋白设计正处在其广泛应用的前夜。

以创造性思维做科研

雷峰网:在您看来,当前药物设计算法领域处在什么阶段?面临的主要挑战是什么?

曹洋:药物设计算法已经取得了长足的进步,但是距离生物医学的实践需求还有较大的距离。我所期待的药物设计技术,就像盖房子一样,只要满足力学规则,就能使用软件设计出符合想象的结构。但是实际上,现在药物设计领域的技术还远远达不到上述理想状态。往往很多时候是在设计阶段想尽各种办法达到指标,满足要求,但最终实验成功的概率只有千分之一,甚至万分之一。

虽然这个领域已经出现了很多分子设计的成功案例,有一些已经完成临床甚至上市,但还没有达到成熟的阶段。在我看来,现在药物设计领域面临的最大挑战在于,我们对于分子层面的规律认识不到位,计算能力不够,这样带来的结果就是不够准确。

雷峰网:对于现在想要进入药物设计领域的年轻科研工作者,您有什么建议?

曹洋:我的建议是,要保持一颗努力学习的心。整个领域进步很快,需要的知识专长非常多,几年前的知识可能现在已经落后了,所以要随时保持学习,争取走在前沿,有所突破。同时还希望密切结合应用实践,推动整个领域的发展进步。

总而言之,时刻保持学习,瞄准这个领域的重大问题去做开发、做研究。

雷峰网:您怎么看待未来 AI 制药的前景?

曹洋:引入这种人工智能系统来辅助药物设计,是近年来最大的一个突破。虽然早期的工作也用了一些机器学习的方法,但不像现在这么大规模、广泛的使用。而且新的 AI 技术建立在更多的数据基础上,拥有更好的模型。相比之前的方法,有质的飞跃。

但即便现在 AI 制药的概念和相关研究工作这么火,还是有很多没有落地,并没有在实际药物研发中产生突出的作用。我们很希望接下来,不论是实验算法也好,还是理论的研究也好,都能够转化为实际上市药物,真正地推动整个领域从理论到实践上的突破。

雷峰网:我注意到您的个人实验室网站首页有一句很显眼的名言,是费曼的名言 “What I cannot create, I do not understand.” 请问您对这句话的理解?

曹洋:很多研究是试图去解释它背后的道理,但是解释并不代表真正理解。排除所有可能性之后,如果能够创造出预设的结果,才能够称之为真正理解。

这也是为什么我们看到很多研究,在解释逻辑方面头头是道,似乎很让人信服,但一旦应用到生物医学场景,就会遇到很多问题。就以药物设计的工作来说,我们要去创造实际的分子,不能仅停留在解释现象。作为科研工作者,我们不仅要认识世界,更要改造世界,只有这样,我们对世界的认识和理解才能更加深刻。

雷峰网:请介绍一下您第二届生信大会上的演讲内容?

曹洋:我主要介绍了实验室近期有关抗体/ BCR 的数据分析、建模方面的工作进展。一方面是有关 BCR 或者抗体序列的多序列比对的新算法,在效率和准确性上达到了业内领先。另一方面是在这个基础上的抗体三维结构预测,成药性分析,就内部测试的结果,相比已知的抗体可变区预测方法,我们的准确性是最好的。我希望通过这次报告,跟国内同行分享相关的成果,也希望收到同行的建议和意见,把研究工作做得更好。

雷峰网:您在第二届生信大会上有什么收获吗?

曹洋:收获挺大的。我注意到现在生物信息领域的研究和医学实践已经深度联系起来了。有几个印象深刻的报告,比如有通过 BCR 的研究去分析人的健康状态,进行免疫力解码;蛋白设计新方法在蛋白活性和实验成功率方面取得突破;还有基于 AI 算法在毒性毒理代谢、重定位等研究的创新。我回去后还要好好消化学习。

本文作者 饶舒玮 长期关注AI+生命科学、具身智能领域,欢迎同道微信交流:swrao3620