打开网易新闻 查看精彩图片

撰文 | Qi

在肿瘤中,只有相对一小部分突变处于正选择下,它们能够通过促进细胞生长或组织侵袭以及抵抗细胞死亡等来驱动癌症。正选择的突变往往在肿瘤中重复发生,因而具有致癌潜力的基因组元件(如启动子和增强子)累积的、不为细胞提供增殖优势的中性(乘客)突变比预期的要多,因此能够模拟体细胞突变率的计算工具对于定位其他癌症驱动因素至关重要。然而,癌症基因组中中性突变的高度可变和组织特异性使这项任务变得具有挑战性。

现有方法通过将定制的突变率统计模型拟合到基因组的特定区域来解决这一挑战,例如旨在识别驱动基因的方法通过使用同义突变作为中性突变的代表,专门在蛋白质编码序列内模拟突变率【1, 2】。最近旨在识别非编码癌症驱动因素的方法训练了复杂的机器学习方法,例如梯度增强机器,以模拟基因组子集内的突变率等【3, 4】。尽管取得了部分进展,但在任意基因组区域中检索驱动突变证据的能力仍然不足,原因在于现有方法不适用于大多数基因组(例如仅在编码序列内起作用),且需要对每组区域进行耗时且计算量大的模型训练才能在癌症队列中进行测试,或无法在碱基对分辨率上进行测试等。这些限制导致癌症驱动元件目录仍然不完整,特别是在非编码基因组中,因而阻碍了精准肿瘤学的发展。

2022年6月20日,来自MIT的Bonnie Berger 团队和哈佛大学医学院附属布莱根和妇女医院的Po-Ru Loh团队在Nature Biotechnology杂志上合作发表了一篇题为Genome-wide mapping of somatic mutation rates uncovers drivers of cancer的文章,他们报道了一种在基因组中的任何位置搜索驱动元素和突变的方法——Dig,并使用深度神经网络以千碱基级分辨率绘制全基因组癌症特异性突变率。通过将观察到的突变计数与预期的突变计数进行比较,以在整个基因组中寻找正选择下驱动突变的证据。他们绘制了37种癌症类型的突变率的图谱,并用来识别内含子隐蔽剪接区域、5'非翻译区域和罕见突变基因内的假定驱动因素。这项工作可作为交互式基因组浏览器和独立软件工具公开,用于量化感兴趣数据集中基因组中任何位置的过量体细胞突变。

打开网易新闻 查看精彩图片

研究人员首先设计了Dig(详细见文章方法学部分)来模拟给定类型癌症的全基因组体细胞突变率,该方法采用概率深度学习模型,能明确捕获体细胞突变率变异性的两个中心决定因素:1)由复制时间和染色质可及性等表观基因组特性驱动的千碱基级变异;2)由诱导体细胞突变的碱基对尺度变异,例如APOBEC驱动的胞苷脱氨和紫外线照射【5-8】。对于前者采用自定义深度学习架构建模【9】,该架构使用神经网络预测10 kb区域内的癌症特异性突变率,能为给定类型的癌症构建了全基因组突变率的千碱基尺度图(图1),对于后者则采用生成图形化模型,能根据突变过程的核苷酸偏好模拟突变应如何分布到区域中的各个位置。研究人员基于来自PCAWG 数据集的体细胞突变和来自Roadmap Epigenomics的111个组织中723个染色质标记的100-bp模式构建了37种癌症类型的突变率图谱和假定的核苷酸突变偏好等。相对于现有方法,该方法需要更少的运行时间并提供灵活性来识别具有全基因组突变水平精度的驱动程序。

打开网易新闻 查看精彩图片

图1. 对全基因组中性体细胞突变率进行建模并识别癌症驱动因素。

选择性剪接越来越被认为在功能上与癌症相关,研究人员应用Dig来严格量化可能存在于基因的外显子和内含子中的隐蔽剪接SNVs发生的程度,是否可能充当驱动程序选择下的突变。在来自癌症基因普查(CGC)的肿瘤抑制基因(TSG)中,通过spliceAI【10】方法预测的隐蔽剪接SNVs显著更高,内含子隐蔽剪接SNVs占TSG中潜在驱动SNVs的4.5%,且处于正选择状态,可能在多种肿瘤类型中充当驱动事件。

假设插入缺失突变可以通过破坏转录因子结合基序对基因表达产生很大的影响,研究人员在PCAWG数据集中对启动子进行检索以寻找插入缺失符合。举例而言,TP53启动子是唯一具有全基因组显着插入缺失负担的元件,5'UTR突变携带者的TP53表达显着低于没有TP53突变的个体和具有预测TP53功能编码突变的个体,表明这些突变直接抑制TP53转录或引起转录物降解。此外,ELF3的5' UTR,在PCAWG样本中具有显着的SNVs负荷,但携带者数量少和转录组分析可用性有限阻碍了进一步对5' UTR突变的功能分析,需要后续继续确定此处的突变是正选择突变还是新的中性突变。除了上述提到的内容之外,该研究还通过Dig方法对罕见编码突变是否能够作为驱动因素进行评估。

打开网易新闻 查看精彩图片

图2. TP53的5' UTRs中体细胞突变的富集。

总之,Dig在突变率建模和识别候选驱动程序方面的强大性能突出了深度学习利用源自高通量测序的数据捕获复杂细胞过程的能力,为体外和体内研究的计算机指导提供了一种工具,因为它可以对可能作为编码和非编码基因组驱动因素的精确突变进行优先排序,然后可以在实验系统中评估这些特定的突变集。例如,Dig识别为推定驱动因素的预测隐蔽剪接突变可以通过细胞系的CRISPR碱基编辑进行评估,作为可能的药物靶标,然后进行药物筛选分析。因此,预计这种方法可以提高不断增长的癌症基因组测序数据的计算、实验和临床效用。

https://doi.org/10.1038/s41587-022-01353-8

制版人:十一

参考文献

1. Lawrence, M. S. et al. Mutational heterogeneity in cancer and the search for new cancer-associated genes.Nature499, 214–218 (2013).

2. Zhao, S. et al. Detailed modeling of positive selection improves detection of cancer driver genes. Nat. Commun. 10, 3399 (2019).

3. Shuai, S., PCAWG Drivers and Functional Interpretation Working Group, Gallinger, S., Stein, L. & PCAWG Consortium. Combined burden and functional impact tests for cancer driver discovery using DriverPower.Nat. Commun.11, 734 (2020).

4. Zhu, H. et al. Candidate cancer driver mutations in distal regulatory elements and long-range chromatin interaction networks.Mol. Cell77, 1307–1321 (2020).

5. Polak, P. et al. Cell-of-origin chromatin organization shapes the mutational landscape of cancer.Nature518, 360–364 (2015).

6. Supek, F. & Lehner, B. Scales and mechanisms of somatic mutation rate variation across the human genome.DNA Repair(Amst). 81, 102647 (2019).

7. Alexandrov, L. B. et al. Signatures of mutational processes in human cancer.Nature500, 415–421 (2013).

8. Alexandrov, L. B. et al. The repertoire of mutational signatures in human cancer.Nature578, 94–101 (2020).

9. Yaari, A. U. et al. Multi-resolution modeling of a discrete stochastic process identifies causes of cancer. International Conference on Learning Representations (ICLR) Poster. https://openreview.net/forum?id=KtH8W3S_RE (2021).

10. Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning.Cell176, 535–548 (2019).

(可上下滑动阅览)

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。