打开网易新闻 查看精彩图片

你是否曾因无法访问UK Biobank原始数据而无法针对特定性状调整协变量?你是否被海量数据的计算瓶颈所困扰? UK BioCoin (UKC) 解决了这两个难题。这项发表于Nature Communications的题为:UK BioCoin: swift trait-specific summary statistics regression for UK Biobank的最新研究,展示了一种仅需50GB即可分发、计算效率提升约80倍的分析工具。

打开网易新闻 查看精彩图片

什么是 UK BioCoin?

UK BioCoin (UKC) 并非一种加密货币,而是一个 计算框架 和 数据共享范式 。目前,GWAS汇总统计数据(Summary Statistics)虽然解决了隐私问题,但通常基于固定的协变量调整(如固定调整年龄、性别等)。这导致研究者无法探索特定性状所需的特殊协变量调整,限制了下游分析的灵活性。UKC通过一种名为 NSS (Naive Summary Statistics) 的核心技术,将原始数据转化为可公开分发的汇总统计量。它允许其他研究人员在不接触个体级数据的前提下,进行高效的、针对特定性状的协变量调整。

核心性能对比:效率与精度

研究团队利用UK Biobank的 505种性状 和 1000万个SNP 进行了全面演示。

打开网易新闻 查看精彩图片

注:测试环境为站立身高(Standing height)GWAS,调整5个协变量。

深度应用:不仅仅是GWAS

UKC不仅能重跑GWAS,其生成的汇总统计数据在下游应用中表现优异,研究团队展示了四个典型应用场景:

1)灵活的全表型组关联分析 (GWAS)

研究发现,协变量的选择对结果影响巨大。身高与体重的差异: 在“身高”分析中,调整BMI影响甚微;但在“体重”分析中,如果不调整BMI,会掩盖与骨骼生长(如 LCORL 基因)相关的位点,而这些位点恰恰是剔除脂肪量影响后的纯体重信号。UKC 让研究者能像玩乐高一样,针对每个性状自由组合协变量(如年龄、性别、PCs、BMI等),挖掘更深层的生物学机制。

2)SNP遗传力估计

利用LDSC方法对505个性状进行遗传力估计,UKC的结果与Neale Lab 公布的结果高度一致(相关系数 0.97)。这表明,即使经过数据压缩和重构,UKC依然能保持遗传架构的完整性。

3)多基因评分 (PGS)

在预测准确性方面,UKC 表现稳定。研究指出,如果不调整适当的协变量,PGS 的准确性可能会被高估。UKC 提供了一个可靠的平台来评估不同协变量组合对 PGS 的影响。

4)孟德尔随机化 (MR)

这是一个极具警示意义的发现。在探究“腰围 (WC) ”对“类风湿性关节炎 (RA) ”的因果效应时, 不同的协变量调整策略导致了完全相反的结论(正相关 vs 负相关) 。

  • 调整模型A(BMI+饮酒): 显示 WC 增加 RA 风险。

  • 调整模型B(体重+体脂+吸烟+10PCs): 结果反转,显示 WC 降低 RA 风险。

这证明了协变量调整在因果推断中的极端重要性,UKC 为这种敏感性分析提供了便捷工具。

质控与可移植性

  • 质控指标 (VIF): 研究提出了使用方差膨胀因子(VIF)作为质量控制指标。当 VIF>50 时,可能存在严重偏差,建议剔除。这为用户提供了判断结果可靠性的标准。

  • 中国精准健康资源数据库 (China Precision Biobank, CPBB ,https://cpbb.cn/): 该框架不仅限于UKB,研究团队已成功将其应用于其他生物银行队列,证明了该技术的通用性和可移植性。

总结与展望

UK BioCoin为大规模生物银行研究提供了一个 隐私保护、高效且灵活 的新标准。它将原本需要高性能计算集群数天才能完成的任务,压缩到了可以在普通笔记本电脑(8核CPU/16GB RAM)上运行的Docker容器中。这不仅降低了科研门槛,更通过允许灵活调整协变量,帮助科学家避免了因模型设定错误而导致的假阳性或假阴性发现。

原文:https://doi.org/10.1038/s41467-026-71788-z

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。