责编 | 兮
在单细胞RNA测序(scRNA-seq)实验中,如果一个反应体(reaction volumn)恰好包含了两个细胞,就会形成双细胞(doublets)。由于双细胞并不是真正的细胞,它们的存在会严重干扰对单细胞RNA测序数据的分析。近年来,研究人员开发了一些计算方法来识别单细胞RNA测序数据中的双细胞。但是,该领域内缺少对这些方法的全面评测研究,从而使下游用户难以根据自身需求选择合适的识别方法。
近日,加州大学洛杉矶分校(UCLA)的李婧翌团队在 Cell Systems 杂志发表了题为Benchmarking computational doublet-detection methods for single-cell RNA sequencing data 的论文【1】,首次对单细胞RNA测序领域内的9种识别双细胞的计算方法进行了系统性的评测研究。作者收集整理了16套包含双细胞实验标记的真实数据,并使用该团队先前开发的scDesign软件【2】和另一款领域内常用的Splatter软件【3】 产生了了112套仿真数据。基于以上数据集,作者对双细胞识别方法进行了多方面的评估比较:在不同实验条件下的双细胞识别准确率,对多种下游分析(差异表达基因的识别、高变化基因的识别、细胞聚类、细胞分化路径推断)的影响,以及计算效率。该研究发现,现有的识别方法在不同的应用环境下表现出较大的差异性。总体而言,DoubletFinder 【4】方法的识别准确率最高,而cxds【5】方法的计算效率最好。
在该研究中,作者首先将9种双细胞识别方法应用于16套真实单细胞RNA测序数据,通过计算AUPRC和AURPC来比较不同方法的识别准确率。其次,作者利用仿真模拟数据对识别方法在不同的双细胞比率,测序深度,细胞类型数量,以及细胞类型间差异程度下的识别准确率表现进行了比较。再次,作者利用仿真模拟数据探讨了双细胞识别方法对四种下游分析的影响,包括差异表达基因(DE gene)识别,高度变化基因(highly varaible gene)识别,细胞聚类(cell clustering),以及细胞分化路径推断(cell trajectory inference)等。随后,作者剖析了不同的双细胞识别方法在并行计算下的表现,揭示出其识别的准确率会随并行数量的增加而降低。最后,作者比较了双细胞识别方法的计算速度,可扩展性,稳定性,并对不同方法的软件开发质量和用户友好程度进行了量化分析。
在论文的结尾部分,作者全面总结了单细胞RNA测序中双细胞识别方法在各种应用场景中的表现,并归纳出5个当前该领域内尚未解决的问题。此外,作者还讨论了由实验技术限制所导致的双细胞标注不准确性对该评测研究的影响,以及超参数优化对识别方法准确性的影响。
加州大学洛杉矶分校的李婧翌副教授是该论文的通讯作者,博士生席楠是该论文的第一作者。在该论文发表后,两位作者受 Cell 子刊 STAR Protocol 的邀请,撰写了题为 Protocol for Benchmarking Computational Doublet-Detection Methods in Single-Cell RNA Sequencing Data Analysis 的论文【6】,对先前研究中使用的数据集,评测方法,以及图形化展示等技术细节进行了归纳总结,提出了评测双细胞识别计算方法的标准化协议流程。作者在论文中将该协议流程成功应用于一个新近发表的双细胞识别方法scDblFinder【7】,并发现该方法同时拥有较好的双细胞识别准确率和较高的计算效率。
李婧翌团队的以上两篇论文是单细胞RNA测序领域中对双细胞识别计算方法进行的首次系统性评测研究,对不同方法的优劣进行了客观全面的分析评价,为一线实验研究人员选择合适的方法提供了有力的依据。同时,该项研究的成果为今后双细胞识别计算方法的开发提供了富有价值的启示。
原文链接:
[1]https://www.sciencedirect.com/science/article/abs/pii/S2405471220304592?dgcid=author
[2]https://arxiv.org/abs/2101.08860
制版人:嘉
热门跟贴