你有没有想过,为什么研究一个癌细胞,科学家们要折腾那么多不同的实验?测蛋白质、测基因表达、看细胞形态——这些听起来差不多的操作,拿到的数据却天差地别。更麻烦的是,这些数据就像拼图碎片,分散在不同的"盒子"里,生物学家得一块一块手动拼,才能勉强看出细胞在发生什么。

最近,麻省理工和哈佛的博德研究所(Broad Institute)联合苏黎世联邦理工学院的团队,搞出了一个AI框架,专门解决这个"拼图对不上"的痛点。他们的思路挺有意思:不是让机器替人看,而是帮机器学会分辨——哪些信息是不同测量方法都能看到的"共识",哪些又是某种方法独有的"独家视角"。

打开网易新闻 查看精彩图片

这项研究今天发表在《自然·计算科学》(Nature Computational Science)上。第一作者张欣怡(Xinyi Zhang)是MIT电气工程与计算机科学系2022届硕士、2025届博士,现在在维也纳的AITHYRA担任团队负责人。通讯作者包括苏黎世联邦理工的G.V. Shivashankar教授和MIT的Caroline Uhler教授。

张欣怡打了个比方:"我们研究细胞的时候,一种测量往往不够用,所以科学家不断开发新技术来观察细胞的不同侧面。但说到底,我们面对的是一个细胞。如果把各种测量方式的信息更聪明地整合起来,就能得到更完整的细胞状态图景。"

这话听起来简单,做起来却卡在一个技术死结上。

细胞测量的"维度灾难"

细胞内部是个多层嵌套的结构。基因在细胞核里,蛋白质在细胞质中跑来跑去,细胞骨架支撑着整个形态。科学家想全面了解一个细胞的状态,通常得动用多种技术:有的专门看DNA甲基化,有的追踪蛋白质丰度,有的用显微镜捕捉细胞形状变化。

问题是,这些技术给出的数据格式完全不同。基因表达是序列数字,蛋白质数据可能是质谱峰图,显微镜图像则是像素矩阵。传统做法是,研究人员分别分析每种数据,然后靠自己的生物学直觉把它们联系起来。

机器学习确实能加速这个过程,但现有方法有个致命缺陷——它们把每种测量模态的信息"打包"在一起处理,就像把不同来源的照片全部倒进同一个文件夹,然后让算法自己找规律。结果是,算法可能发现"这组数据和那组数据相关",但说不清这种关联到底来自细胞的哪个部位、哪个过程。

举个例子:假设基因表达数据显示某个通路活跃,蛋白质数据也显示相应酶的水平升高,传统方法会标记它们"相关"。但如果基因表达数据其实来自细胞核的特定区域,而蛋白质数据来自细胞质的不同位置,这种"相关"的生物学意义就大打折扣。研究人员需要知道信息的空间来源,才能判断这是真正的功能耦合,还是测量噪音的巧合。

AI的新任务:学会"溯源"

新框架的核心创新,在于它显式地建模了"共享信息"和"特有信息"的分离。

具体来说,这个AI系统会同时接收多种测量模态的数据输入。在学习过程中,它尝试回答两个问题:第一,不同测量方式中,哪些信号描述的是同一个细胞状态特征?第二,每种测量方式各自携带了哪些其他方式看不到的独特信息?

用技术语言讲,这涉及到多模态表示学习中的"解耦"(disentanglement)问题。研究团队设计了一种结构化的潜在空间(latent space),其中一部分维度专门编码跨模态共享的变量,另一部分维度则保留模态特有的变异。

关键的设计巧思在于约束条件。如果某种信息在所有测量模态中都出现,AI就把它推向共享空间;如果只出现在特定模态中,就归入该模态的专属通道。这种区分不是事后标注,而是训练过程中自动涌现的。

这样一来,当生物学家查看分析结果时,他们不仅能看到"基因表达和蛋白质水平正相关"这样的笼统结论,还能进一步追问:这种相关性是基于细胞核内的转录调控,还是细胞质中的翻译后修饰?数据的空间溯源变得可追溯。

从癌症到代谢病:谁需要这张"完整地图"

研究团队特别强调了这项技术在疾病研究中的应用前景。癌症是典型的多因素疾病——同一个肿瘤内部,不同区域的细胞可能处于完全不同的状态:有的疯狂增殖,有的休眠耐药,有的正在转移。如果只测基因表达,可能错过蛋白质层面的药物靶点;只测形态,又可能忽略分子层面的驱动突变。

阿尔茨海默病和糖尿病这类复杂疾病同样如此。神经元退化涉及蛋白质错误折叠、能量代谢紊乱、细胞骨架崩塌等多个层面;糖尿病则牵连胰岛素信号、线粒体功能、脂肪组织炎症等交织的网络。传统单模态研究像是在摸象,各说各话。

新框架的价值在于,它允许研究人员把不同模态的数据"对齐"到同一个参考系中。不是强行融合成一锅粥,而是保持各信息源的辨识度,同时揭示它们之间的结构性关联。这种"既见树木,又见森林"的能力,对于理解疾病机制、追踪病程进展、评估治疗反应都有潜在帮助。

不过需要明确的是,这项研究目前聚焦于方法学层面的突破。论文展示的是算法框架的可行性和理论基础,尚未涉及具体的临床验证或药物开发应用。从计算工具到实际诊疗,中间还有漫长的转化距离。

跨机构合作的"拼图"本身

这项研究的作者名单也值得一提。张欣怡的履历横跨MIT的电气工程与计算机科学系、博德研究所的施密特中心,现在又在维也纳的AITHYRA组建自己的团队。G.V. Shivashankar在苏黎世联邦理工和保罗谢尔研究所领导多尺度生物成像实验室,擅长把物理测量与生物学问题对接。Caroline Uhler则是MIT统计学和机器学习的资深学者,长期关注高维数据中的因果推断。

这种组合本身反映了现代生命科学研究的一个趋势:问题越来越复杂,单一实验室的技术栈已经不够用了。需要计算机科学家设计算法,需要物理学家开发测量手段,需要生物学家提出正确的问题。AI在这里扮演的不是替代者,而是翻译官——在不同模态的数据之间、在不同学科的从业者之间,建立可操作的对话。

张欣怡在采访中提到,她的博士工作很大程度上受益于博德研究所的交叉环境。"在那里,我既能接触到最前沿的基因组学实验,又能和纯理论背景的机器学习研究者讨论。这种碰撞对定义真正重要的科学问题很关键。"

方法背后的"不知道"

作为一篇方法学论文,这项研究也坦诚地留下了一些开放问题。

首先是模态数量的扩展性。论文展示的是双模态或三模态的整合场景,但真实研究中可能同时有五六种甚至更多测量方式。共享空间和专属空间的维度如何分配,会不会随着模态增加而变得难以解释,这些都需要更多探索。

其次是生物学先验的引入程度。目前的框架相对"无监督",主要依赖数据本身的统计结构。但如果研究人员对特定细胞过程有先验知识——比如知道某些基因和蛋白质应该协同调控——如何把这些知识优雅地编码进学习过程,而不至于让模型变得过于僵化,是个微妙的平衡。

最后是因果方向的判断。相关性不等于因果性,这是数据科学的老生常谈。新框架能揭示不同模态信息的共变模式,但无法自动告诉研究者"是基因表达变化导致了蛋白质重定位,还是反之"。因果推断需要额外的实验设计或假设,这不是当前方法能独立解决的。

这些局限不是缺陷,而是诚实。在科普写作中,保留"我们不知道"的边界,比硬编一个圆满解释更有价值。读者需要的是对科学进程的真实感知,而不是被过度包装的确定性。

一个更广泛的观察

把这项研究放在更大的背景下,它其实是"AI for Science"浪潮中的一个切片。过去几年,深度学习在蛋白质结构预测、药物分子设计、医学影像分析等领域接连取得突破。但细胞生物学的特殊性在于,它的复杂性不是单一维度的——不像蛋白质结构可以简化为三维坐标,细胞状态是基因、蛋白质、代谢物、形态、环境响应的多维交织。

这种多模态特性,既是挑战,也是机会。挑战在于没有"标准答案"可供监督学习;机会在于,如果能聪明地整合不同信息源,就可能发现任何单一视角都看不到的模式。博德研究所团队的工作,正是在这个方向上迈出的具体一步。

对于普通读者来说,这项研究的意义或许在于理解一个基本事实:现代生物学已经不再是"拿显微镜看一看"那么简单。一个癌症细胞的完整画像,可能需要整合测序仪、质谱仪、高内涵成像系统等多种设备的数据,需要计算机科学家设计算法来降维和关联,需要统计学家来量化不确定性。AI不是魔法,它只是让这个协作过程稍微顺畅一点。

下次再看到"AI破解癌症"之类的标题时,你可能会多一个判断维度:它说的是辅助诊断的影像AI,还是预测药物反应的分子模型,抑或是像这项研究一样、帮助科学家整合多源数据的基础工具?不同的定位,对应的是不同的发展阶段和不同的期待值。

细胞还是那一个细胞。但我们观察它的方式,正在变得立体起来。