来源:北京大学生物医学前沿创新中心
近日,北京大学生物医学前沿创新中心(BIOPIC)汤富酬课题组在Genome Biology发表题为
scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration的研究论文。
该研究开发了基于大语言模型智能体的单细胞 RNA 测序数据处理框架 scExtract,提高了单细胞数据分析的效率和准确性。
随着单细胞 RNA 测序技术的发展,公开可用的单细胞数据快速增长。截至 2024 年 8 月,cellxgene 数据库收录了 1458 个数据集,但新发表的单细胞测序研究数量远超过现有数据库的收录速度。
由于数据共享协议通常只要求提交原始测序数据,缺乏标准化的细胞注释信息,这给数据整合分析带来了挑战。研究人员在构建整合数据集时,往往需要花费大量时间手动提取预处理方法和标记基因描述,这种方法在处理多个数据集时效率较低。
针对这一问题,汤富酬课题组开发了scExtract 框架。
该框架以原始表达矩阵和研究文章内容作为输入,可以自动执行与原文方法一致的预处理、聚类和注释操作。scExtract 采用大语言模型模拟专家分析流程,能够从文章文本中提取每个步骤使用的参数,并基于 scanpy 系统实现计算。
在聚类阶段,scExtract 可以从文章中提取聚类数目等参数,当文章未明确说明时,能根据文章讨论的细胞群体数量和注释粒度推断合适的聚类策略。在注释阶段,scExtract 结合标记基因列表和文章背景知识,使注释结果与文章内容保持一致。此外,scExtract 还能通过查询特征标记基因的表达水平来优化初始注释结果。
图 1 scExtract 的工作流程
研究团队使用来自 cellxgene 的 18 个人工标注数据集对 scExtract 进行了测试。结果显示 scExtract 的准确性优于 SingleR、scType 和 CellTypist 等方法。在群体级别准确性指标上,scExtract 表现出更好的性能,反映了其对稀有细胞类型的识别能力。
图 2 scExtract 在 cellxgene 标注数据集上的测试
研究团队还开发了 scanorama-prior 和 cellhint-prior 两种改进的整合算法。scanorama-prior 在构建相互最近邻时考虑细胞类型间的先验差异,并在细胞移位过程中将原始细胞群体作为整体移向目标数据集中的对应群体。cellhint-prior 则根据细胞群体分配的不确定性水平动态调整先验知识的权重。
在整合性能评估中,使用胰腺单细胞转录组数据集的测试表明,scanorama-prior 在消除批次效应的同时,能较好地保持细胞类型间的真实生物学差异。在大规模数据集评估中,scExtract 的两步整合策略在批次校正和保留生物学信息方面表现良好。
作为应用实例,研究团队利用 scExtract 整合了14 个皮肤单细胞转录组数据集,构建了包含超过 44 万个细胞的皮肤免疫失调数据集。该数据集涵盖了银屑病、特应性皮炎等多种疾病状态,以及从新生儿到老年人的不同发育阶段。
通过对角质细胞亚群的分析,研究团队发现了银屑病特异性的增殖性角质细胞扩增现象,并揭示了CXCL14+角质细胞在银屑病发病机制中的潜在作用。
图 3 scExtract 整合分析角质细胞亚群的疾病特征
scExtract 框架具有实用价值:处理单个转录组数据集约需 20 分钟,成本低于 1 美元,且不需要额外高性能计算资源。
随着大语言模型技术的发展,scExtract 的准确性和效率有望进一步提高。该工具为单细胞组学研究提供了数据分析支持,有助于更高效挖掘现有数据资源,推进对细胞异质性的研究。
北京大学生物医学前沿创新中心汤富酬教授为该论文的通讯作者;博士研究生吴宇轩为该论文的第一作者。该研究得到了北京市自然科学基金、新基石科学基金会等项目的支持。
论文链接:https://doi.org/10.1186/s13059-025-03639-x
开源代码:https://github.com/yxwucq/scExtract
汤富酬,北京大学生物医学前沿创新中心教授,北京未来基因诊断高精尖创新中心研究员、副主任,北大-清华生命科学联合中心研究员,国家杰出青年科学基金获得者。
汤富酬实验室主要从事人类生殖系发育以及肿瘤发生的单细胞功能基因组学研究,围绕人类生殖系发育研究多种干细胞的自我更新和分化发育调控的表观遗传调控机理,以及相关的生殖系发育的表观遗传编程和重编程机理。
利用自身发展的单细胞功能基因组学高通量测序技术体系(单细胞转录组、基因组、DNA 甲基化组、染色质状态组、基因组三维结构组、以及多组学测序等技术),基因编辑技术、哺乳动物胚胎显微操作技术、类器官培养技术、以及人类胚胎干细胞体外定向分化等技术在单细胞和单碱基的极限分辨率下深入研究人类生殖系细胞发育以及肿瘤发生过程中基因表达网络的表观遗传学调控机理,并在此基础上深入探索生殖细胞发育异常相关的不孕不育、以及癌症等疾病的诊断和治疗策略。
我们长期为科研用户提供前沿资讯、实验方法、选品推荐等服务,并且组建了 70 多个不同领域的专业交流群,覆盖神经科学、肿瘤免疫、基因编辑、外泌体、类器官等领域,定期分享实验干货、文献解读等活动。
添加实验菌企微,回复【】中的序号,即可领取对应的资料包哦~
【2401】论文写作干货资料(100 页)
【2402】国内重点实验室分子生物学实验方法汇总(60 页)
【2403】2024 最新最全影响因子(20000+ 期刊目录)
【2404】免疫学信号通路手册
【2405】PCR 实验 protocol 汇总
【2406】免疫荧光实验 protocol 合集
【2407】细胞培养手册
【2408】蛋白纯化实验手册
【2501】染色体分析方法汇总
【2502】国自然中标标书模板
【2503】WB 实验详解及常见问题解答
【2504】DeepSeek 论文写作常用口令
【2505】中国科学院期刊分区表(2025 年最新版)
【2506】期刊影响因子(2025 年最新版)
热门跟贴