作为临床科研工作者或者医学生,如何利用中国人群公开数据库开展课题相关的科学研究,并发表较高质量科研论文?相信这是很多人都思考过的问题。

这篇文章,我就结合我们发表过的两篇论文,和大家分享一些经验:

  1. 1. 发表在《Cardiovascular Diabetology》 杂志(中科院一区,IF 9.3分),论文题目为 “Triglyceride-glucose index, renal function and cardiovascular disease: a national cohort study”

  2. 2. 发表在《Alzheimer's Research & Therapy》杂志(中科院一区,IF 9.0分),论文题目为“High-intensity physical activity is not associated with better cognition in the elder: evidence from the China Health and Retirement Longitudinal Study”

我主要分享以下两方面内容:

一、目前国内公开可获取的人群数据库有哪些;二、如何确认选题并增加研究创新性。

一、关于中国人群公开数据库

人群数据的收集需要大量时间和科研经费的投入,因此并不是所有课题组都拥有可用的人群或者患者数据。且单一课题组收集的数据往往受限于样本量,数据的人群代表性并不完美。在这种情况下,除了课题组之间的合作获取可使用数据之外,利用公开数据平台结合自身课题方向开展研究是一个十分可行的选择。

除了大家熟知的国外一些经典的公开数据库,例如UK Biobank,NHANES,ARIC,SEER等,国内也有比较成熟的数据库供大家申请使用。我后面主要介绍 中国健康与养老追踪调查 (China Health and Retirement Longitudinal Study, CHARLS)数据库,同时推荐大家使用 中国健康与营养调查 (China Health and Nutrition Survey, CHNS)和 中国老年健康调查 (Chinese Longitudinal Healthy Longevity Survey, CLHLS)两个数据库开展科学研究,后续会继续和大家分析其他数据库的使用注意事项。

中国健康与养老追踪调查(CHARLS)数据库,是国家自然科学基金委资助的重大项目,旨在收集一套代表 中国45岁及以上中老年人 家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,为制定和完善我国相关政策提供更加科学的基础,同时也为公共卫生、疾病危险因素、环境暴露等多领域研究提供了数据支持。

全国基线调查于2011年开展,于2011、2013、2015和2018年分别在全国28个省(自治区、直辖市)的150个县、450个社区(村)开展调查访问。值得关注的是,CHARLS 2020年全国追踪调查数据于2023年11月16日正式公开发布:

https://charls.charlsdata.com/pages/Data/2020-charls-wave5/zh-CN.html

截至2023年11月,CHARLS用户数已经达到90 191人。其中国内用户占93.9%,海外用户超过5 483人。截至2023年11月,据不完全统计, 基于CHARLS数据库发表累计4676篇论文 ,其中,已发表的期刊总数3 778篇,学位论文总数719篇。

CHARLS数据内容包括: 个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,社区基本情况以及血液检查数据等。

在疾病危险因素领域研究中,最关键的数据是社会人口学信息(年龄、性别、婚姻、教育程度等),行为因素(吸烟、饮酒、体力活动等),自报的健康状况(疾病史,如高血压、糖尿病、高血脂、心脏病、脑卒中、恶性肿瘤,服药史等),体格检查(身高、体重、腰围、握力、血压等),认知功能评分和抑郁状况量表,生化检查(血脂、血糖、肾功能指标,如血肌酐和胱抑素C、炎症指标等),死亡登记信息等。

值得注意的是,血液检查指标在2011年和2015年进行了两轮检测,在2020年新公布的数据中,加入了疫情数据模块以促进相关研究。

利用CHARLS数据库,最常见的研究疾病 是抑郁症、认知功能、高血压、糖尿病、代谢综合症、睡眠障碍、肥胖、心脏病、脑卒中、口腔健康等,同时也关注到一些新结局,如肌少症、衰弱等表型的研究。

CHARLS数据的形式为基于不同的调查年份进行申请下载和整合。不同层面的数据位于不同的文件,提示大家要注意和数据说明文档的比对从而进行数据清洗。

关于研究的设计类型, 最多见的是横断面研究和队列研究 。随访的基线可以是2011年即首次全国调查,也可以根据自身课题情况,选择如2015年作为基线,18年随访结束等。总之,设计类型相对灵活,但要注意选择匹配的统计学方法进行数据分析,并考虑抽样过程中的个体权重。举例说明,在第一篇“Triglyceride-glucose index, renal function and cardiovascular disease: a national cohort study”论文中,我们基线选择2011年,分别于后续三轮(2013,2015,2018)随访中收集心脑血管疾病的发生情况。

二、关于选题和创新性

利用开放数据库面临的最大问题, 就是越来越难以提出“重要而未解决的问题” 。我想和大家分享我在科研工作中选题和进行课题设计的一些体会。

首先,肯定是要聚焦自身专业 ,在自身耕耘数年的研究领域,一定会具备提出重要科学问题的优势。比如我自身主要从事疾病和健康的危险因素研究,那在我平时的工作中会关注到一般人群主要代谢性疾病危险因素相关的队列研究。

比如第二篇论文“High-intensity physical activity is not associated with better cognition in the elder: evidence from the China Health and Retirement Longitudinal Study”,探讨体力活动强度和认知功能的关系,是我关注到WHO发布的指南中提示,体力活动可以使认知功能获益,但目前仍然不清楚不同体力活动强度和认知功能改善的关联。 所以我提出的科学问题就是:在中老年人群中,是不是体力活动强度越高,认知功能状况越好。

其次,在提出一个粗略的科学问题后,确定研究因素和疾病结局后,要去全面检索目前已有研究 比如第一篇研究论文“Triglyceride-glucose index, renal function and cardiovascular disease: a national cohort study”开始之前,我初步确定了胰岛素抵抗TyG指数这个主题,但其实TyG和心血管疾病结局的关联研究已经发表了很多。

考虑到疾病残余风险的联合评估和干预,我设计联合评估TyG指数和肾功能水平,进行心血管疾病风险关联性分析。并且尝试回答TyG指数对于心血管疾病风险的影响,肾功能水平下降是否发挥部分中介效应。

总结来讲, 除了传统队列研究基线单一暴露因素和结局的关联性研究设计外,我们可以考虑指标的联合效应,但要注重所联合指标的合理性。 同时可以考虑单一指标的 动态变化 对结局事件的影响,如体重改变和脑卒中发生风险。CHARLS数据中血检数据在2011和2015年进行了重复测量,为指标变化的分析提供了可能。

最后 ,采用更严谨或者新的统计分析方法也会为文章添彩。 比如在文章中考虑到真实世界情况下混杂因素产生的偏倚,采用多种统计学方法(如倾向性评分等)控制混杂效应,考虑个体权重,进行多场景的敏感性分析,合理处置数据缺失等,都可以增加文章的可信度。在这里我想指出的是, 近期很多文章会在队列研究的基础上加入孟德尔随机化方法进一步验证暴露因素和结局间的因果效应,也是一种增加证据等级的选择。

小结

数据库是做科研最重要的资源之一。 除了创建自己的高质量的数据库(如医生自己的患者数据库)之外,充分利用公共数据库也是非常好的方法。 但要注意结合自身专业背景,提出有价值的科学问题,选择合适统计学方法,为疾病领域提供新的科研证据。

-----------小咖有话说---------

医咖会计划制作“如何利用公开数据库发表文章”的科研课程,您对哪些公开数据库感兴趣?更希望该课程在讲解时着重哪些内容,诚邀您 点击左下角“ 阅读原文 ”投票讨论。

我们在制作课程时将会充分参考您的建议,希望内容能够真正帮助到大家!