AI辅助研究人员深度解析细胞生物学全貌|实验|形态学|染色质|生物学|细胞

通过研究癌症患者细胞中的基因表达，临床生物学家能够了解癌症的起源并预测不同治疗方法的成功率。但细胞结构复杂，包含多个层次，生物学家进行测量的方式会影响他们能获得的数据类型。例如，测量细胞中的蛋白质可能会产生与测量基因表达或细胞形态学不同的癌症影响信息。

信息在细胞中的来源位置至关重要。但为了捕获细胞状态的完整信息，科学家往往必须使用不同技术进行多次测量，并逐一分析。机器学习方法可以加速这一过程，但现有方法将每种测量模式的所有信息混合在一起，使得难以确定哪些数据来自细胞的哪个部分。

为解决这一问题，麻省理工学院与哈佛大学布罗德研究所以及苏黎世联邦理工学院/保罗谢勒研究所的研究人员开发了一个基于人工智能的框架，该框架能够学习哪些关于细胞状态的信息在不同测量模式之间共享，哪些信息是特定测量类型独有的。

通过精确定位哪些信息来自哪些细胞部位，这种方法提供了细胞状态的更全面视图，使生物学家更容易看到细胞相互作用的完整图景。这可以帮助科学家理解疾病机制，跟踪癌症、阿尔茨海默病等神经退行性疾病以及糖尿病等代谢疾病的进展。

论文第一作者、前麻省理工学院电气工程与计算机科学系研究生、现任奥地利维也纳AITHYRA集团负责人张心怡表示："当我们研究细胞时，一种测量方法往往是不够的，因此科学家开发新技术来测量细胞的不同方面。虽然我们有很多观察细胞的方法，但归根结底我们只有一个潜在的细胞状态。通过以更智能的方式整合所有这些测量模式的信息，我们可以更全面地了解细胞的状态。"

该研究的合作者还包括苏黎世联邦理工学院健康科学与技术系教授、保罗谢勒研究所多尺度生物成像实验室负责人希瓦香卡，以及论文通讯作者、麻省理工学院电气工程与计算机科学系和数据、系统与社会研究所教授乌勒。该研究成果发表在《自然计算科学》期刊上。

处理多重测量

科学家可以使用许多工具来捕获细胞状态信息。例如，他们可以测量RNA来观察细胞是否在生长，或者测量染色质形态来了解细胞是否在应对外部物理或化学信号。

希瓦香卡说："当科学家进行多模态分析时，他们使用多种测量模式收集信息并将其整合，以更好地理解细胞的潜在状态。有些信息只被一种模式捕获，而其他信息则在多种模式间共享。要完全理解细胞内部发生的情况，重要的是要知道信息来自哪里。"

通常情况下，科学家解决这个问题的唯一方法是进行多个单独实验并比较结果。这种缓慢而繁琐的过程限制了他们能收集的信息量。

在这项新研究中，研究人员构建了一个机器学习框架，专门理解哪些信息在不同模式之间重叠，哪些信息是特定模式独有但未被其他模式捕获的。

张心怡说："作为用户，你只需输入细胞数据，它就会自动告诉你哪些数据是共享的，哪些数据是模式特定的。"

为了构建这个框架，研究人员重新思考了机器学习模型捕获和解释多模态细胞测量的典型设计方式。

通常这些被称为自编码器的方法，为每种测量模式设置一个模型，每个模型为该模式捕获的数据编码单独的表示。这种表示是输入数据的压缩版本，丢弃任何不相关的细节。

麻省理工学院的方法有一个共享表示空间，其中编码多种模式间重叠的数据，以及单独的空间，其中编码每种模式的独特数据。

本质上，可以将其视为细胞数据的维恩图。

研究人员还使用了特殊的两步训练程序，帮助他们的模型处理决定哪些数据在多种数据模式间共享所涉及的复杂性。训练后，当输入从未见过的细胞数据时，模型可以识别哪些数据是共享的，哪些是独特的。