Nat Commun丨开发基于深度学习的单细胞水平具体转座子位点表达定量模型|位点|座子|细胞|转座

转座子 (Transposon)，又称转座元件或跳跃基因，是哺乳动物基因组的重要组成部分，在基因调控、基因组进化和细胞间异质性中发挥着关键作用。尽管部分转座子仍然活跃并能够在基因组中跳跃，但大多数转座子已经积累了突变和退化，使其失去了主动转座的能力。因此，许多转座子被保留在基因组中并作为调控元件发挥作用。这些非编码功能包括调控基因表达以及形成长链非编码 RNA（lncRNA），这些 RNA 参与关键的调控网络，影响基因表达和细胞功能。尽管转座子扮演着这些重要角色，但由于其重复序列和高拷贝数导致的多重比对测序读段（reads）定量的挑战，我们在单细胞水平上对特定位点转座子的理解仍然有限。

转座子高多重比对读段的挑战

从转座子的高对比读段中准确量化表达量是这个领域的一项重大挑战。许多现有的单细胞转座子量化工具过度依赖比对算法来处理多重比对读段。然而由于转座子的重复性，利用对比算法量化转座子表达量存在局限性，即他们忽略了转座子周围的基因组上下文信息。

特定位点转座子量化的挑战

现有的方法未能实现精确的特定位点转座子定量，他们有些只量化转座子亚家族的表达量，有的仅仅将读段分配到对比算法提供的“最佳” 位置，因此在处理转座子区域中普遍存在的多重比对读段方面非常有限。这些方法忽视或回避了由转座子重复特性导致的多重比对读段分配挑战，这种忽视可能低估了转座子定量中分配多重比对读段的复杂性和不确定性。

来自麦吉尔大学Ding Jun课题组在Nature Communications发表研究论文：MATES：一种基于深度学习的单细胞水平转座子定量工具。MATES 使用基于自编码器的模型，通过分析转座子区域周围独特比对读段的分布，概率性地将多重比对转座子读段分配到特定位点。通过深度神经网络，MATES 学习独特读段分布与多重比对读段来自特定位点的可能性之间的关系。这一创新方法在多个单细胞测序平台上进行了严格验证，包括10X Genomics（scRNA-seq、scATAC-seq 和 Multiome）、Smart-seq 和空间转录组学（10X Visium）。该工具的多样性和精确性已带来了新的生物学见解，为更广泛的应用和实验验证铺平了道路。

利用深度学习模型解决转座子多重比对读段的挑战

为了解决这些挑战并填补空白，团队提出了 MATES，这是一种基于深度神经网络的方法，专为跨模式的单细胞测序数据中的特定位点转座子精确定量而设计。MATES利用转座子位点周围独特比对读段的分布信息，将多重比对转座子读段分配到特定位点，从而实现特定位点转座子的定量。通过深度神经网络的强大能力，MATES 捕捉转座子位点周围独特比对读段分布与多重比对读段被分配到这些位点的概率之间的复杂关系。该方法使 MATES 能够基于转座子位点的局部上下文，以概率方式处理多重比对读段的分配问题。

MATES方法包括多个关键步骤。首先，将原始读段比对到参考基因组，识别唯一比对到某个转座子位点的读段（独特比对读段）以及比对到多个转座子位点的读段（多重比对读段）。接着，为每个转座子位点计算覆盖向量，表示围绕该位点的独特比对读段分布（上下文），并将每个转座子区域细分为长度为 W（如 10 个碱基对）的较小区间。根据区间内独特比对读段和多重比对读段的比例，将每个区间分类为独特占主导区域或多重占主导区域。然后，MATES 使用自编码器模型学习潜在嵌入，用于表示转座子位点的高维独特读段覆盖向量，即特定位点的比对上下文。此外,转座子家族的独热编码信息也作为模型输入，用于结合潜在嵌入预测特定位点的多重比对比例 (α)。模型的总损失由重构损失和相邻区间读段覆盖连续性的损失组成，后者反映了多重占主导区间的覆盖应接近其相邻的独特占主导区间。通过训练完成的模型，我们可以以概率方式统计每个转座子位点的读段总数，从而实现转座子在位点水平的精确定量。进一步地，通过将转座子定量与单细胞数据中的传统基因定量（如基因表达或基因可及性）结合，MATES 能够更准确地对细胞进行聚类，并识别全面的生物标志物（基因和转座子），以表征获得的细胞群。除了高效处理单细胞数据的各种模式，MATES 还提供特定位点转座子的可视化功能，支持生成 bigwig 文件和交互式基因组查看器（IGV）图，帮助研究人员直观地探索和解释基因组中转座子位点的读段分配。

图1:MATES方法概览。

a原始读段被比对到参考基因组，同时考虑转座子位点上的多重比对读段。b构建转座子覆盖向量，包括独特比对读段覆盖向量 V_u 和多重比对读段覆盖向量 V_m，以捕获读段的分布信息。c自编码器（AutoEncoder）模型从独特比对读段覆盖向量中提取潜在嵌入。这些嵌入与转座子家族数据T_i结合，用于预测多重比对读段与每个转座子位点匹配的概率α。dMATES 计算的多重比对概率α对构建转座子计数矩阵至关重要。该矩阵是细胞分析的关键，可单独使用，也可与传统基因计数矩阵结合使用。结合使用可以增强细胞聚类和生物标志物（基因和转座子）的发现，从而更全面地理解细胞特性。eMATES 实现基因组范围的读段覆盖可视化，并生成基于基因组浏览器的可视化文件。该方法在单个细胞中对特定位点的转座子进行定量，生成包含从概率分配的多重比对读段计算的覆盖的bigwig文件。这些文件将独特和多重比对读段的覆盖信息合并，生成全面的bigwig文件，可通过交互式基因组查看器（IGV）等工具实现基因组范围的转座子读段可视化。

团队对 MATES 的系统性评估中，使用了不同测序平台、模式和物种的多种单细胞数据集，结果表明 MATES 始终能够提供更准确的转座子定量结果。除了更高的精确性之外，MATES 还提供了特定位点水平的转座子定量，并且能够在不同测序平台和数据模式下推广使用，从而更全面地理解转座子在细胞动态和基因调控中的作用。他们还通过Nanopore和 PacBio 长读段测序以及模拟数据对方法的预测结果进行了验证。通过将 MATES 的单细胞转座子定量与模拟的真实值或长读段测序的代理真实值进行比较，结果证明了 MATES 的准确性及其相较于现有方法的优势。结果表明，MATES 在探索转座子在单细胞生物学中的作用方面表现出色，并为不同实验背景下的转座子定量提供了一个实用的解决方案。

MATES利用自编码器，基于独特占主导地位的转座子区域的覆盖向量，学习单个转座子位点上独特比对读段的分布模式。它整合了独特比对和多重比对读段，从而在位点水平上精确定量转座子表达。该工具不仅限于亚家族级别的转座子表达定量，还能够实现位点水平的定量，从而提高细胞群体分析的分辨率，并推动特定位点转座子标志物的识别。

https://www.nature.com/articles/s41467-024-53114-7

【课题组/招聘】

丁俊教授于2021年3月加入麦吉尔大学医学院，担任终身教职轨道助理教授。FRQS Junior 1 Scholar in Artificial Intelligence in Healthcare, 他还隶属于Meakins-Christie Labs, 计算机科学系, MILA-Quebec AI Institute。在加入麦吉尔大学之前，他在卡内基梅隆大学与Ziv Bar-Joseph（2012年Overton奖得主）完成了博士后研究。

招聘职位：本科研究实习生

Dr. Jun Ding (https://junding.lab.mcgill.ca/) 正在寻找自我激励的本科研究实习生、硕士研究生和博士研究生加入他的实验室，实验室位于麦吉尔大学。我们的实验室专注于开发生命科学和健康领域的机器学习/深度学习应用，包括药物发现、理解复杂疾病中的细胞动力学等。实验室拥有充足的资金和计算资源。要求：

熟悉Python（熟悉PyTorch/TensorFlow者优先）；

有强烈的研究兴趣（有研究经验者优先）；

熟悉机器学习和深度学习（有概率图模型或图神经网络经验者优先）。

如果您对任何职位感兴趣，请投递您的简历。

简历投递（有意者请将个人简历等材料发至）：

https://jinshuju.net/f/ZqXwZt或扫描二维码投递简历

制版人：十一

BioART战略合作伙伴

（*排名不分先后）

BioART友情合作伙伴

（*排名不分先后）

转载须知