撰文丨王聪
编辑丨王多鱼
排版丨水成文
细胞(Cell)作为生命的基本单位,是一个极其复杂精妙的实体,其特性和行为对物理和计算模型的极限构成了挑战。每个细胞都是一个动态且具有适应性的系统,在其中,复杂的活动源自无数的分子间相互作用。为了理解细胞的功能,科学家们试图构建虚拟细胞(Virtual Cell)模型来模拟、预测和引导细胞的行为。
如今,在人工智能和组学领域发生的令人振奋的科技革命,使得直接从数据中学习构建细胞模型成为可能。这些科技革命为一个雄心勃勃的人工智能虚拟细胞(AIVC)愿景提供了前所未有的机遇,AIVC 是一种基于大规模神经网络的多尺度、多模态模型,能够表征和模拟分子、细胞和组织在各种状态下的行为。
目前,已有多个研究团队正在竞相开发人工智能(AI)模型,以建模生命的基本单位——细胞,并预测细胞的行为。
2024 年 12 月 12 日,“陈-扎克伯格倡议”(CZI)的科学负责人Stephen Quake联合 40 多位学者,在Cell期刊发表了题为:How to build the virtual cell with artificial intelligence: Priorities and opportunities 的展望文章,介绍了利用人工智能(AI)创建虚拟细胞(Virtual Cell)的重点和机遇【1】。
如果Stephen Quake如愿以偿,未来生物学家将大大减少在做实验上花费的时间。他表示,我们的目标是开发 AI 虚拟细胞模型,这将成为理解疾病发病机制的一个非常强大的计算工具,在他的设想中,虚拟细胞负责预测,人类科学家负责实验验证,从而让细胞生物学从“90% 实验 + 10% 计算”转变为“90% 计算+10% 实验”。
创建虚拟细胞的努力,目前尚处于起步阶段,但这一愿景已在全球学术和工业实验室中引起了极大兴趣。
致力于开发开放数据集和工具的非营利组织“陈-扎克伯格倡议”(CZI)计划在未来十年投入数亿美元用于创建虚拟细胞。开发出了 AI 蛋白质结构预测工具 AlphaFold 的DeepMind公司也在推进一个虚拟细胞项目。瑞典国家生命科学实验室计划在 2026 年启动名为“Alpha Cell”的虚拟细胞模型项目。此外,诺奖得主David Baker创立的Xaira Therapeutics则在本月发布了一个涵盖 8000000 个细胞的迄今最大规模单细胞扰动测序数据集 X-Atlas/Orion,以支持虚拟细胞研究【2】。Arc 研究所则在上周推出了一个虚拟细胞模型——STATE,旨在预测各种干细胞、癌细胞和免疫细胞对药物、细胞因子或基因干扰的反应【3】。
但也有一些科学家表示,尽管开发虚拟细胞是生物学的一个重要长期目标,但目前这一热潮存在很多炒作成分,却鲜有具体成果,也缺乏明确的成功路径。有科学家直言不讳:虚拟细胞主要被用作口号和融资,而且效果不错,投资机构正在向这一领域投入大量资金。
几十年来,生物学家一直致力于利用计算机来模拟细胞行为。2012 年,J. Craig Venter 研究所的科学家们创建了首个完整细胞的计算模型,模拟了一个仅含 525 个基因的人类病原体——生殖支原体的细胞内运作机制【4】。
但这项研究以及其他早期的努力往往试图真正构建一个细胞的完整机械模型。相比之下,当前开发虚拟细胞的努力得益于人工智能(AI)的进步,当输入大量数据时,AI 能够生成复杂的数据表示,例如从大量文本中训练的大型语言模型。建立能从数据中学习的模型具有革命性意义。
早期的虚拟细胞主要关注一种类型的数据:来自对单个细胞中所有 mRNA 分子进行测序的实验数据(单细胞转录组测序数据),这相当于一份基因活动目录以及细胞当前状态的快照。这些数据构成了“图谱”的基础,这些图谱描绘了人类和其他生物体内不同细胞类型的情况,揭示了此前未被充分认识的多样性。
如今,研究人员如今正在大量生成“单细胞测序”数据集,以助力其虚拟细胞的研究。例如,“陈-扎克伯格倡议”(CZI)计划发布来自 10 亿个细胞的测序数据,而在 2 月,Arc 研究所发布了来自 1 亿个经数百种药物处理的癌细胞的测序数据。这些单细胞测序数据很有吸引力,因为它能够以与大语言模型开始获得复杂能力时相似的规模经济实惠地生成——达到数百亿的数据点。
目前,研究人员已经开始利用这些数据开发单细胞人工智能模型。就在上周,Arc 研究所公布了其首个虚拟细胞模型——“State”。此外,Arc 该研究所还发起了一个虚拟细胞挑战赛,挑战研究人员利用虚拟细胞模型预测人类干细胞对基因干扰的反应【5】。相关阅读:
不过,其他研究人员表示,这些虚拟细胞模型目前还不够强大,预测能力也不足,无法得出适用于其训练数据之外的结论,用新数据集对一些虚拟模型进行基准测试时,它们的表现很糟糕。
此外,还有许多研究人员表示,虚拟细胞需要整合其他形式的数据,比如光学显微镜和电子显微镜图像,这些图像能够展示细胞的不同组成部分如何相互作用,以及细胞如何随时间变化。也就是说,我们还需要单细胞测序之外的数据。
开发虚拟细胞所面临的挑战还在于,虚拟细胞还没有被明确定义,究竟是什么是虚拟细胞,当前的研究人员一件尚未达成共识。
Stephen Quake表示,自己设想的让细胞生物学家摆脱实验室工作台的愿景还需要一段时间来适应,但幸运的是,适应的时间还很充裕,生物学家们还没准备好迎接虚拟细胞模型,而模型也还没有足够成熟。
论文链接:
1. https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1
2. https://www.biorxiv.org/content/10.1101/2025.06.11.659105v1
3. https://arcinstitute.org/manuscripts/State
4. https://www.cell.com/cell/fulltext/S0092-8674(12)00776-3
5. https://www.cell.com/cell/fulltext/S0092-8674(25)00675-0
热门跟贴