打开网易新闻 查看精彩图片

南方人为什么比北方人更容易得地中海贫血,因为几十年前肆虐的疟疾导致了南方人某个基因的突变。如何既快又准找到它,是摆在生物学家面前的难题。

为了解决诸如此类的问题,一群最懂基因测序、拥有海量数据的人,和一群最懂AI的科学家们在一起,花6个月时间做出了全球首个百亿级人类基因组基础模型Genos。

之江实验室总工程师赵志峰把他们称为“硬盘侠”和“键盘侠”:前者负责筛选并且把装有专业数据的硬盘背到实验室,交给后者,那些敲代码敲到腰椎间盘突出的年轻科学家。

昨天,他们坐在一起,发布了一个叫021的科学基础模型,希望在地球科学、天文学、生命科学、材料科学等多个领域加速科学发现、变革科研范式,成为科学家们手里的最强“外挂”。

所谓的021,实际上是英文zero to one(从0到1)的简写。光从名字看,就包含了变革的意义。按照中国工程院院士、之江实验室主任王坚的说法,“如果基础模型是人工智能的皇冠,那么科学基础模型就是人工智能皇冠上的明珠。”

打开网易新闻 查看精彩图片

中国工程院院士、之江实验室主任王坚

打开网易新闻 查看精彩图片

全球首个

百亿级人类基因组基础模型

7个月前,在杭州华大的一间小会议室里,包括华大生命科学研究院领域首席科学家 刘石平 和之江实验室总工程师赵志峰在内的几个人,坐下来喝了一杯咖啡。在这一杯咖啡的时间里,他们就讨论了一个问题:生命科学是非常大的一门科学,从哪里开始?最后指向一个答案:“读懂”基因。

200多年前,奥匈帝国人孟德尔在奥古斯丁修道院的小花园里,通过豌豆实验首次提出遗传因子概念,2000年左右,人类完成了基因组全部30亿个碱基对的测序。即便如此,目前人类超过90%的基因组功能尚未明确,70%以上的致病点位仍未被定位。

在喝完咖啡的一周后,一个以基因模型训练为目标的“种子班”在之江实验室正式启动, 刘石平 是种子班的班主任。

打开网易新闻 查看精彩图片

刘石平

从5月份开始,华大研究院从杭州、北京、深圳、武汉等地陆续抽调精英团队进驻之江实验室,每天和那里的科学家们同吃同住。他们想解决同一个问题:如何将这30亿碱基对放进模型里。

“牵一发而动全身。” 刘石平 说,基因组的语言极其复杂,一个微小的单碱基突变,原因可能藏在百万碱基对之外。

比如,科学家花了很久才发现,南方人患地中海贫血概率比北方人高的原因:几十年南方疟疾横行,南方人为了抵抗疟疾、适应环境,基因的某些点位发生了一些突变。虽然这些基因突变提高了南方人抵抗疟疾的能力,但反过来也带来了一些副作用,比如导致血红蛋白运输氧气的能力减弱,从而导致地中海贫血或其他血红蛋白病。

“键盘侠”和“硬盘侠”一起奋战6个月后,全球首个百亿级人类基因组基础模型Genos诞生了。这个针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。

最近,之江实验室生命科学计算研究中心研究专家郭玲分享了一个模型的实用案例,曾经在做基因序列的时候,发现在6号染色体上有一个高频突变,但遗传病理查不到相关信息,最后,她把数据放到了Genos里,模型给出了三个症状预测,得到了医生的高度认可。

AI照亮基础科学研究进阶之路
打开网易新闻 查看精彩图片
AI照亮基础科学研究进阶之路

去年,诺贝尔化学奖和物理学奖的获得者里都出现了人工智能专家的身影。其中,化学奖一半授予大卫·贝克,以表彰他在计算蛋白质设计方面的贡献;另一半授予德米斯·哈萨比斯和约翰·M·詹珀,以表彰他们在蛋白质结构预测方面的成就。

打开网易新闻 查看精彩图片

德米斯和约翰所在的公司,正是大名鼎鼎的DeepMind,前者更是联合创始人兼CEO。在他主导下,AlphaGo横空出世,将最顶尖的人类棋手斩于马下。随后,他们将AlphaGo的相关技术运用到生物医学研究,推出了可以预测蛋白质结构的AI模型AlphaFold。

蛋白质是构成生命活动的基础物质,参与生命体几乎所有生理功能的调节与维持。蛋白质的功能和它的三维结构息息相关,和基因一样,人类对蛋白质的结构了解越多就越能解开生命的密码。

打开网易新闻 查看精彩图片

AlphaFold生成的蛋白质结构

不过,在AlphaFold出现之前,人类想要还原一个蛋白质结构需要花费大量时间和资源。截至2018年,人类才积累了22万蛋白结构。而AlphaFold用三年时间就生成了六七亿个。

从AlphaFold2开始计算,过去五年,AI已经成为从事蛋白质研究的生物学家不可或缺的工具,甚至被称为“结构生物学的第二次降临”。

诺贝尔化学奖的另一位得主,大卫·贝克就是其中一员。他是华盛顿大学蛋白质设计研究所所长,和团队首次使用生成式人工智能从头设计出了全新的抗体,有望让AI从头设计蛋白进入抗体药物市场。

诺贝尔奖的结果也说明,全世界最聪明的一群人认可了用AI对其他领域基础科学研究范式的改变,即当下人工智能的发展已经使得AI for Science(AI4S)变得可行。科学家们借助机器学习、数据分析、高性能计算等技术,能在各个领域进行更深入的探索和发现。

随之而来的问题是,如何让AI4S在多个科学领域高效地展开?毕竟,AlphaFold3将蛋白质序列、DNA/RNA碱基序列以及小分子结构等,破天荒用Token统一编码放到一个模型里,前后花了6年时间。而它对于科学家的赋能仍局限于生物化学分子这一细分领域,远未能覆盖生命科学这一学科。

之江实验室要做的是,把生命科学在内的数学、物理、化学、天文学、地球科学和材料学等多个不同学科、不同类型的科学数据训练到一个基础模型里,工作量和困难比当年训练AlphaFold3指数级增加。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打造科学家们的超级“外挂”

“语言所表达的维度,远远低于科学所需表达的维度。”之江实验室科学模型总体部技术总师薛贵荣说,科学数据涵盖时间、空间、能量等多个维度,是对复杂物理系统演变规律的高维表征。

比如,地球科学中超过75%的信息存储于声波、磁场等非文本数据中;天文学依赖图像、光谱来解析宇宙结构与演化;生命科学的奥秘深藏于如人类基因组30亿碱基对等DNA序列中……

这也意味着,解决科学问题,眼前最紧迫的是,突破语言空间的局限,构建一个集“科学空间+语言空间”于一体的更高维空间,建立跨学科数据之间的深层连接,变革科学研究范式。

打开网易新闻 查看精彩图片

在技术上,之江实验室的研发团队探索构建了全新的OneTokenizer(科学数据统一表征) + MoE(混合专家架构)融合模型架构。

为了让模型能够识别、处理科学数据,认识并解决复杂科学问题。他们经过了近万次实验形成了模型训练框架,并完成了2360亿参数规模021科学基础模型的训练。最后,一个跨学科知识、跨领域推理、跨语言理解(覆盖204种语言),具备出色的科学推理能力,能够深入分析、推导、验证多类科学问题的科学基础模型诞生了。

有了021科学基础模型,对科学研究来说意味着什么?

021模型更像是科学家们打破学科边界的一个超级“外挂”。薛贵荣演示了一个简单的例子:一个反应里面涉及5种化合物,包含反应物、溶剂、助剂和催化剂,如何预测这些化合物相互作用能生成什么物质?

通过实验进行高通量筛选,通常需要数月乃至一年的周期,现在通过021科学基础模型可以在数分钟内完成产物的预测,大幅提速。

打开网易新闻 查看精彩图片

“这是我见过最漂亮的一朵花!”

在进化到AlphaFold3之后,AI不仅可以回答和预测,还具备了“创造力”。比如,合成新型材料蛋白,生成更多AI-结构模型,开启药物发现的新阶段。

浙大城市学院先进材料增材制造创新研究中心主任汤慧萍就见过AI的“非凡创造力”。

在之江实验室,她带领着另外一群“硬盘侠”和实验室的科学家们组成了一支攻坚队,他们的主线任务是构建一个多孔材料逆向生成模型。

打开网易新闻 查看精彩图片

汤慧萍

大自然孕育了无数神奇而有用的多孔材料,比如王莲、珊瑚、骨骼、竹子,布满了1厘米以下的孔。这么多复杂的孔构型,是天工造物,突破了人类的想象。

那有没有可能找到一个合适的孔构型可以用在不同的领域?

和 刘石平 不同的是,汤慧萍与之江实验室迸发出火花是在两年前。在云栖小镇的一次会议上,汤慧萍遇到了王坚,当时汤慧萍和王坚聊起了多孔材料,整场听下来王坚就记住了几个字——“设计空间巨大”。

“那就可以用人工智能来做。”王坚对汤慧萍说。

这是一场跨学科的大作战。70多个人的团队,涉及材料、机械、力学、计算机、数学等多种学科。要训练一个模型,至少需要一个百万级的数据库。“但现有的数据很少,实验数据又太慢。”汤慧萍说。

于是,团队决定自己生产数据。怎么生产数据,一开始也是蒙的,有两三个月时间,一群年轻人坐在一起无从下手。后来找到了数学这个破题的关键,通过参数化建模方法和自研仿真算法,仅用3个月就生产了200多万孔结构-力学性能数据。

如果用传统的仿真方法,要花上57年时间。

一个叫OnePorous的模型应运而生,专注于多孔合金材料的设计与研发。其核心功能是通过逆向设计方法,直接生成满足目标性能的多孔胞元,减少了传统正向设计需不断试错迭代的耗时。

团队为3D打印卫星设计的胞元,就是从AI生成的200多万个胞元结构中选出来的。看到那个胞元的瞬间,这位多孔材料和增材制造领域的科学家激动地说:“这是我见过最漂亮的一朵花!”

打开网易新闻 查看精彩图片

从AI生成的200多万个胞元结构中选出来的3618胞元

打开网易新闻 查看精彩图片

3618胞元构成的多孔结构

目前,这个胞元结构已经用于卫星主体结构制造,这也意味着,之江实验室与浙大城市学院的跨学科团队完成了从AI设计到3D打印制造的全链路创新。

除了材料科学模型OnePorous,目前021模型已服务地球科学、天文学、生命科学等多个领域。

比如天文领域模型OneAstronomy,将光谱、光变、图像等不同模态的天文数据映射至统一表征空间,实现跨模态融合推理,重构数据处理范式。通过OneAstronomy,望远镜学会了自主观测。

人类百亿级基因组基础模型Genos在致病性突变识别任务上实现了98.3%的准确率。

今年4月面向全球开放使用的地学领域模型GeoGPT,经过不断迭代升级,其中GeoGPT-VL支持图像描述总结、图像信息提取、地理空间推理、地学分析推理四类典型任务,实现从“读图”到专业推理的跨越。

文 | 沈积慧 梁应杰

VIEW MORE

@下次再“箭”>>

@蔡崇信:中美AI竞争中中国有四大底牌>>

@钉钉副总裁创业>>