2025 年 4 月 4 日起,美国国立卫生研究院(NIH)将正式对包括中国在内的多个受关注国家实施数据访问限制。NIH 主任办公室已于 4 月 2 日在官网发布《实施更新:增强 NIH 受控访问数据的安全措施》文件,明确禁止位于中国、俄罗斯、伊朗等受关注国家的机构访问 NIH 的受控数据存储库及相关资料。
例如,NCBI 等国际知名数据库的突然「断供」,让广大科研工作者措手不及,仿佛一夜之间失去了重要的研究工具。

图片来源:NIH 官网
被禁用的国外数据库
NCBI ——作为 NIH 下属的数据库中心,负责维护 GenBank(全球最大的公共 DNA 序列数据库,存储着数百万物种的基因数据)、PubMed(收录超过 3500 万篇生物医学文献摘要)、dbGaP(基因型和表型数据库)、SRA(序列读取存档)、ClinVar(记录基因变异与疾病关联的临床数据库)、Protein(存储蛋白质序列和结构数据)等重要生物医学数据库,可以说是无数科研人的数据「粮仓」。

图片来源:NCBI 官网
GenBank 数据库——作为 NCBI 精心打造并维护的一级核酸序列数据库,汇聚并详尽注释了全球所有公开的核酸及蛋白序列信息。
其丰富数据源自全球科研工作者直接向 DNA 序列数据库的积极贡献,无论是作为研究论文的重要组成,还是直接公开的序列数据,GenBank 都为其提供了坚实的存储与分享的平台。
GenBank 数据库的禁用对科研工作带来了多方面的挑战,中国科研人员将无法直接访问 GenBank 数据库中的受控数据,包括人类基因组数据、健康记录等敏感信息。
这也将严重影响相关领域的研究进展,尤其是在精准医学、遗传学等领域。

图片来源:GenBank 官网
dbGaP 数据库——作为人类基因型-表型数据库,存储着全球最全面的人类基因组与表型关联数据,覆盖癌症、罕见病等研究领域,中国约有 75% 的机制癌症研究依赖于此平台。
dbGaP 数据库的禁用将使得中国科研人员无法直接访问 dbGaP 数据库中的受控数据,包括人类基因型与表型数据、疾病研究数据等敏感信息。
这将严重影响相关领域的研究进展,尤其是在遗传学、癌症研究等领域。

图片来源:dbGaP 官网
ClinVar 数据库——作为免费的公共数据库,主要包含了人类遗传变异及其与疾病的关系,全球有 2800 多个组织提交了 300 多万种变异。
该数据库此前进行了更新,包含三种分类类型:种系变异、致癌性和体细胞变异的临床影响。
ClinVar 数据库被广泛运用于临床遗传学检测实验室、研究机构、专家组以及其他负责变异临床意义分类的人员。尤为关键的是,该平台为临床遗传学检测实验室搭建了数据共享的桥梁,使得原本可能永不公开的宝贵信息得以共享和传播。
ClinVar 数据库被禁用之后,医生可能无法获取这些关键数据,影响疾病的诊断和治疗方案的制定,进而影响患者的治疗效果和生活质量。
同时,由于无法获取关键数据,一些新药研发项目可能被迫延迟,导致预计损失增加。例如,药明康德的新药研发管线中,多个项目因无法获取 ClinVar 数据而延迟,预计损失超过 20 亿元。

图片来源:ClinVar 官网
进行替代的国产数据库
面对如此多的数据库被禁用,应该如何破局?其实,国家基因库已早有准备!中国在生物信息数据领域打造了自主可控的数据资源共享平台 —— 国家基因库生命大数据平台(CNGBdb),为科研人员提供了坚实的数据支撑。以 CNGBdb 为代表的一批国产数据库与平台在成果发表和数据资源自主性方面均取得了显著突破。
接下来,学霸君就带大家认识更多的国产数据库,为大家提供更多可替代性方案。

图片来源:CNGBdb 官网
►CNGB 数据库
https://db.cngb.org
中国国家基因库 CNGB 作为我国自主研发且可控的公共核酸序列数据库,为数据所有者提供了一个平台,用以归档和公开共享各类数据,包括原始数据(如 fastq/bam 格式)、组装数据(fasta 格式)、变异数据、代谢数据、单细胞数据以及时空组数据等。

图片来源:CNGB 官网
此外,相关研究成果和数据也可以通过国家基因库序列归档系统 CNSA 进行上传与归档。
目前,CNSA 已经有近 18000TB 的数据总量!

图片来源:CNSA 官网
该数据库已获得 CoreTrustSeal 全球核心可信存储库认证、FAIRsharing 国际认证,并被国际科研数据仓储目录 re3data 收录。
此外,CNGB 支持向 Elsevier、Wiley、Taylor & Francis、Oxford、Cell Press、Science 等多个国际知名出版社和期刊系列投稿发文,所有提交至 CNGB 的数据均会进行 DOI 标识。
值得一提的是,CNGB 还成为国际科学理事会(ISC)世界数据系统(WDS)在生物信息领域的首个正式会员。
►NGDC 数据库
https://ngdc.cncb.ac.cn
国家基因组科学数据中心 NGDC 数据库,于 2019 年 6 月 5 日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人。
以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。
旨在通过建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。

图片来源:NGDC 官网
目前,NGDC 包括了基因组和变异、基因表达、非编码 RNA、表观基因组等多种类型的数据资源,共计归档数据 69.9PB,服务用户超过 5822 万。
其中,单是已产生肿瘤基因诊断数据就有约 160TB,肿瘤基因研究相关测序数据约为 1PB!在愈发重视数据安全的当下,大家在进行科研数据发表的时候,建议可以将 NGDC 作为上传测序数据的首选!

图片来源:NGDC 官网
►CHARLS 数据库
https://charls.pku.edu.cn
中国健康与养老追踪调查 CHARLS 数据库由北京大学国家发展与研究院与北京大学中国社会科学调查中心共同发起。
旨在收集一套代表中国 45 岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究的调查。

图片来源:CHARLS 官网
据官方统计,截至 2023 年 10 月底,已有超 8.8 万名用户注册并下载了数据库中的数据。
基于 CHARLS 的出版物也在迅速增加,截至 2023 年 9 月底,以 CHARLS 数据为基础发表的论文 4,587 篇,其中英文期刊论文 2,079 篇,中文期刊论文 1,639 篇,学位论文 697 篇。
最近,来自北京大学等联合团队就基于 CHARLS 数据库,调查了抗高血压药物的依从性、社会经济地位和认知衰老之间的关联,研究成果成功发表在中国科学院医学一区 TOP 期刊《BMC Medicine》!

图片来源:BMC Medicine
►CHNS 数据库
https://www.cpc.unc.edu/projects/china
中国健康与营养调查数据库 CHNS 是由美国北卡罗来纳大学卡罗来纳人口中心与中国疾病预防控制中心营养与健康所(原国家食品安全与营养所)合作开展的持续性开放队列。
旨在评估健康信息、营养及计划生育政策的效果,并探究我国社会经济社会转型对人口健康与营养状况的影响。通过追踪社区组织、项目以及家庭与个人经济、人口和社会因素的变化,研究人员能够衡量各种因素对营养健康行为及结果的动态影响。

图片来源:CHNS 官网
CHNS 调查由一个国际研究团队进行,他们的背景包括营养学、公共卫生、经济学、社会学、中国研究和人口学。通过采用多阶段随机聚类过程,抽取了 15 个省市的约 7200 户家庭和 30000 多人的样本,这些家庭在地理、经济发展、公共资源和健康指标方面差异很大。
调查的内容涉及健康学、营养学、社会学、人口学、经济学、公共政策等多个学科,数据内容包括社区调查、家庭户调查、个人调查、健康调查、营养和体质测验等。CHNS 数据库的创新性较高,适用于多种医学领域研究,如健康与食物结构、吸烟影响、疾病趋势等。
此前,来自浙江大学的研究团队基于 CHNS 数据库,探究了中国中老年人群中植物性饮食(PBD)和地球健康饮食(PHD)的环境负担与死亡风险关系,研究成果成功发表在中国科学院医学一区 TOP 期刊《Lancet Planet Health》!

图片来源:Lancet Planet Health
►CFPS 数据库
https://cfpsdata.pku.edu.cn
中国家庭追踪调查(CFPS)数据库是由北京大学中国社会科学调查中心(ISSS)实施调查,通过收集个体、家庭、社区等方面的微观调查数据库,采用计算机辅助调查技术开展访问,以满足多样化的设计需求,提高访问效率,保证数据质量,是北京大学和国家自然基金委资助的重大项目,也是国内最为权威的家庭层面微观调查数据库之一。

图片来源:CFPS 官网
CFPS 的主体问卷包括村居问卷、家庭成员问卷、家庭问卷、少儿问卷和成人问卷五类。调查在社区、家庭和个人三个层面进行。
其核心目标是系统收集中国家庭、社区、个体三个层面的动态数据,展现中国社会经济、人口、教育、健康等领域的变化。

图片来源:CFPS 官网
近日,来自北京师范大学的研究团队基于 CFPS 数据库,探究了家庭冲突与青少年抑郁之间存在双向恶性循环的关系,研究成果成功发表在中国科学院医学二区期刊《Child and Adolescent Psychiatry and Mental Health》!

图片来源:Child and Adolescent Psychiatry and Mental Health
除了上述的国产数据库之外,以下数据库也同样可以帮助大家获取大量的科研数据,大家可以自行访问!

图片来源:生物学霸
科研人都怎么看?
经历此次事件,很多科研人也在网上发表了不同的看法:
网友 1:之前用国外的数据库,上传特别慢,每次学校断网了还没上传好。现在用 CNSA,再也不用担心断网了,速度超快超稳!另外,CNSA 能引用序列号发文章,存储空间要大,上传、下载速度要快,安全靠谱而且免费!
网友 2:越卡脖子,独立数据库建得反而越快,就是会有阵痛期!
网友 3:作为一名从事基因编辑技术开发与应用研究的科研人员,数据库就是我们最日常打交道的平台。没有数据信息共享,实际具体的科研工作很难开展。如果这些公共数据库对我们都实施关停,那我们将不得不去寻找替代数据库,而使用替代数据库的研究可能会被质疑 「数据代表性不足」,如仅用中国生物银行(China Kadoorie Biobank)数据发表的成果,在 SCI 期刊接收率将会下降。无法获取 GTEx 正常组织表达谱,就会导致肿瘤特异性突变研究难以完成同行评审要求的对照实验,而这些都会严重影响我们的学术产出。
网友 4:这一变化只是开始,未来一定有更多脱钩政策出现。中国多年前就在未雨绸缪地建设本土数据库。加大本土数据库建设和使用,是中国科研圈的必然趋势。
最后,也请大家及时做好应对策略,尝试利用可替代数据库和平台,定期备份关键数据,最大限度降低封锁带来的影响。
题图来源:图虫创意
热门跟贴