通过研究癌症患者细胞中的基因表达,临床生物学家能够了解癌症的起源并预测不同治疗方法的成功率。但细胞结构复杂,包含多个层次,生物学家进行测量的方式会影响他们能获得的数据类型。例如,测量细胞中的蛋白质可能会产生与测量基因表达或细胞形态学不同的癌症影响信息。
信息在细胞中的来源位置至关重要。但为了捕获细胞状态的完整信息,科学家往往必须使用不同技术进行多次测量,并逐一分析。机器学习方法可以加速这一过程,但现有方法将每种测量模式的所有信息混合在一起,使得难以确定哪些数据来自细胞的哪个部分。
为解决这一问题,麻省理工学院与哈佛大学布罗德研究所以及苏黎世联邦理工学院/保罗谢勒研究所的研究人员开发了一个基于人工智能的框架,该框架能够学习哪些关于细胞状态的信息在不同测量模式之间共享,哪些信息是特定测量类型独有的。
通过精确定位哪些信息来自哪些细胞部位,这种方法提供了细胞状态的更全面视图,使生物学家更容易看到细胞相互作用的完整图景。这可以帮助科学家理解疾病机制,跟踪癌症、阿尔茨海默病等神经退行性疾病以及糖尿病等代谢疾病的进展。
论文第一作者、前麻省理工学院电气工程与计算机科学系研究生、现任奥地利维也纳AITHYRA集团负责人张心怡表示:"当我们研究细胞时,一种测量方法往往是不够的,因此科学家开发新技术来测量细胞的不同方面。虽然我们有很多观察细胞的方法,但归根结底我们只有一个潜在的细胞状态。通过以更智能的方式整合所有这些测量模式的信息,我们可以更全面地了解细胞的状态。"
该研究的合作者还包括苏黎世联邦理工学院健康科学与技术系教授、保罗谢勒研究所多尺度生物成像实验室负责人希瓦香卡,以及论文通讯作者、麻省理工学院电气工程与计算机科学系和数据、系统与社会研究所教授乌勒。该研究成果发表在《自然计算科学》期刊上。
处理多重测量
科学家可以使用许多工具来捕获细胞状态信息。例如,他们可以测量RNA来观察细胞是否在生长,或者测量染色质形态来了解细胞是否在应对外部物理或化学信号。
希瓦香卡说:"当科学家进行多模态分析时,他们使用多种测量模式收集信息并将其整合,以更好地理解细胞的潜在状态。有些信息只被一种模式捕获,而其他信息则在多种模式间共享。要完全理解细胞内部发生的情况,重要的是要知道信息来自哪里。"
通常情况下,科学家解决这个问题的唯一方法是进行多个单独实验并比较结果。这种缓慢而繁琐的过程限制了他们能收集的信息量。
在这项新研究中,研究人员构建了一个机器学习框架,专门理解哪些信息在不同模式之间重叠,哪些信息是特定模式独有但未被其他模式捕获的。
张心怡说:"作为用户,你只需输入细胞数据,它就会自动告诉你哪些数据是共享的,哪些数据是模式特定的。"
为了构建这个框架,研究人员重新思考了机器学习模型捕获和解释多模态细胞测量的典型设计方式。
通常这些被称为自编码器的方法,为每种测量模式设置一个模型,每个模型为该模式捕获的数据编码单独的表示。这种表示是输入数据的压缩版本,丢弃任何不相关的细节。
麻省理工学院的方法有一个共享表示空间,其中编码多种模式间重叠的数据,以及单独的空间,其中编码每种模式的独特数据。
本质上,可以将其视为细胞数据的维恩图。
研究人员还使用了特殊的两步训练程序,帮助他们的模型处理决定哪些数据在多种数据模式间共享所涉及的复杂性。训练后,当输入从未见过的细胞数据时,模型可以识别哪些数据是共享的,哪些是独特的。
区分数据
在合成数据集的测试中,该框架正确捕获了已知的共享和模式特定信息。当他们将方法应用于真实世界的单细胞数据集时,它全面且自动地区分了两种测量模式(如转录组学和染色质可及性)共同捕获的基因活性,同时也正确识别了仅来自其中一种模式的信息。
此外,研究人员使用他们的方法识别了哪种测量模式捕获了表明癌症患者DNA损伤的特定蛋白标记。了解这些信息的来源将帮助临床科学家确定应该使用哪种技术来测量该标记。
乌勒说:"细胞中有太多模式,我们不可能全部测量,所以我们需要预测工具。但问题是:我们应该测量哪些模式,应该预测哪些模式?我们的方法可以回答这个问题。"
未来,研究人员希望使模型能够提供关于细胞状态的更多可解释信息。他们还希望进行额外实验,确保模型正确分离细胞信息,并将模型应用于更广泛的临床问题。
乌勒说:"仅仅整合所有这些模式的信息是不够的。如果我们仔细比较不同模式以理解细胞的不同组分如何相互调节,我们可以学到很多关于细胞状态的知识。"
这项研究部分由布罗德研究所埃里克和温迪·施密特中心、瑞士国家科学基金会、美国国立卫生研究院、美国海军研究办公室、阿斯利康、麻省理工学院-IBM沃森AI实验室、麻省理工学院机器学习与健康诊所以及西蒙斯研究员奖资助。
Q&A
Q1:这个AI框架能解决细胞生物学研究中什么问题?
A:该框架主要解决多模态细胞测量数据整合的问题。现有方法将不同测量模式的信息混合在一起,难以确定哪些数据来自细胞的哪个部分。新框架能自动识别哪些信息在不同测量模式间共享,哪些是特定模式独有的,为生物学家提供细胞状态的更全面视图。
Q2:这种方法如何帮助癌症等疾病的研究?
A:通过精确定位信息来源,该方法能帮助临床科学家确定应该使用哪种技术测量特定的疾病标记物,比如表明DNA损伤的蛋白标记。这有助于科学家理解疾病机制,跟踪癌症、阿尔茨海默病等神经退行性疾病以及糖尿病等代谢疾病的进展。
Q3:相比传统方法,这个AI框架有什么优势?
A:传统方法需要进行多个单独实验并逐一比较结果,过程缓慢繁琐。新框架使用特殊的两步训练程序和共享表示空间设计,用户只需输入细胞数据,就能自动区分共享数据和模式特定数据,大大提高了研究效率并能处理从未见过的细胞数据。
热门跟贴