(一)
花少作为一枚健身狗,最近收到各种微信朋友圈的关爱,有些惶恐:
先是被劝阻长跑会增加心血管风险,又被告知对膝盖有益,善变的朋友圈,那你告诉我跑还是不跑?
有劝我少吃牛肉的,说是会得糖尿病,爱吃甜食就多吃点吧反正不会有问题,求长肌肉的我听后一脸懵逼;
还有知道我刚从帝都出差回来,又是操碎了心,告诉我雾霾会让人短命,求我的心理阴影。
究其原因,都是最近流行的医学科普文章惹的鬼。
为了恢复内心的安宁,花少打算在此教朋友们一招,面对各种眼花缭乱的文章,如何去辨别它们的真伪性。
(二)
首先,要看一下这篇文章是否有医学试验作为理论依据。
比如在BBC的糖和脂肪比较中,先不谈是否有任何商业利益的掺杂,用一组双胞胎的结果作为一个普遍真理,本身就是极不科学的,因为个体的差异实在太大了。
而在中国式马拉松的原文中,有这样的描述:“据统计,长跑和马拉松运动员死于心血管疾病的比例占77.5%。”乍一看有些危言耸听,但仔细想想,你就会发现这77.5%根本没有数据来源。
接下来,如果科普文章凑巧给出了医学试验的出处,那就要看看这个医学试验是否设计的科学合理,这一步非常关键。
如果试验本身就设计的很差,那最后得到的结果肯定也不靠谱。为了帮助大家理解这一点,我们不妨看看长跑和空气污染这两篇文章中提到的医学试验。
第一篇是方舟子“运动会损害膝盖吗?”一文中提到的斯坦福大学的医学研究。文中指出,在研究结束时长跑组的膝骨关节炎比例为20%,而不爱跑步的对照组则多达32.1%,这似乎证明了方舟子的观点。但有人却提出了反对意见,反对者提到了一个很有趣的统计数值,那就是P值,他认为这两组数据差异的P值大于0.05,所以两组并没有统计学差异。
第二篇是关于空气污染对人寿命影响,研究人员发现,在淮河南北两岸,空气污染水平出现了巨大的“跳跃”。与空气污染的突变相对应,同时期居民人均预期寿命也在淮河两岸表现出明显的跳跃,所以他们认为空气污染使得北方居民的预期生存时间显著缩短。
(三)
那么问题来了,这两则看似证据凿凿的医学研究是否真实可信呢?花少就以它们为例给大家分享下如何判断一个医学试验设计的合理性和科学性。
1、样本量够大么?
首先,医学试验需要一定的样本量。
这就像投硬币,虽然得到正面和反面的机会是一样的,可是如果你只投几次,很可能得到的要不全是正面,要不就全是反面,这些偶然发生的情况就会误导我们的判断,认为这个硬币是不均匀的。事实上,只有投的次数足够多时候,得到的正面和反面的次数才会接近1比1。
这说明,我们需要足够的样本才能反应真实的情况。而样本量的确定需结合医学知识和统计分析才可得到。
回到长跑的试验中来,我们会发现两组一共只录用了100人左右,这样的样本量也许是够的,但具体够不够取决于两组的差异和人群的变异度,但文章里并没有说明该样本量是如何确定的。在某些情况下,100例足够了,但有些时候,几千例都可能不够。
而在空气污染的研究中,研究者根本没有专门录用任何样本。他们只是查阅了淮河两岸总体的预期寿命,这样的做法是不严谨的。淮河两岸巨大的人群存在太多的差异化和不可控因素,绝对不是单独的空气质量影响能够一言以蔽之的。
针对此问题,研究者必须从淮河两岸各自录入足够数量情况相近的人群,再进行长期的观察,才可能得到一个比较可信的结果。
2、对照组合理么?
其次,一个好的试验要有一个合理的对照组,对照组和试验组需要具有可比性。
比如说,两组性别、年龄、基础疾病、家族史等都没重大差异。简而言之,对照组和试验组之间,除了是否接受试验干预之外,应没有其他的区别。这样,当试验结束时候,我们才能知道两组人的区别是不是由试验干预引起的。
在长跑一文中,喜欢长跑的人群就是试验组,而不跑步的人群就是对照组。长跑组中有6.7%的人试验一开始时候就患有关节炎,这对于我们最后的试验结果可能会产生干扰。
而空气污染一例中,尽管研究者在回归模型中考虑了他们能想到的影响健康的因素,然而两岸人群各影响因素的不平衡大大增加了分析的困难。各模型得到的结果不一致,也让其结论经不起推敲。
也就是说,参加比较的两组人群除了空气质量外,其他条件诸如生活习惯,居住环境,收入分布也要非常的相似,才能得出可靠的结论。
3、结论可靠么?
最后,需要观测两组数据差异是否显著,这就要提到我们前文说过的P值了。
很多人都不太理解P值的意思,其实它并不复杂。
通常在两组样本中,我们观测到了差异,但这不能证明两组之间就一定存在显著的区别,因为如果这差异太小,完全可能是偶然性的误差或小样本引起的。
就如同你扔两枚相同的一块钱硬币各10次,可能一个得到5次正面另一个得到6次正面,你不能就断定两枚硬币是不一样的。我们需要判断,这个差别是不是足够大,大到可以证明这两组差异是显著存在的。
这时比较两者差异所得到的P值就可以回答这个问题,当P值小于某个特定值(常用0.05),我们可以认为两组之间的差别是显著存在的。否则,我们会认为观测到的差异太小,并不能支撑两组存在显著差异的假设。
在长跑试验中,这一差别的P值>0.05,这也是反对者批评方舟子的原因所在。而在空气污染研究的回归模型中,一些统计学家指出,当使用不一样的回归模型时,空气质量对于人们寿命的影响也会变得不再显著(P值>0.05)。
不过这里花少需要强调的是,只有一个试验设计的足够科学合理, 那么P值才是有意义的,而长跑和空气污染这两个试验本身的样本量,以及两组成员的基础差异控制都未满足要求,所以得到的P值也失去了科学的意义。
(四)
概括而言,要去判断一个科学文章是否靠谱,就必须要有医学试验的佐证。而这个医学试验本身也要有合理、科学的设计。
只有明白这些道理,在如今这个“专家”横行的时代,我们才能时刻保持清醒的头脑,不被伪科学,假科普所误导。
参考文献:
1、《中国式马拉松,商业驱动下的愚昧狂欢》
2、《BBC人体实验:双胞胎医生一人吃糖,一人吃脂肪,最后谁变胖?》
3、《以色列研究首次发现雾霾致中国北方人均寿命低于南方5.5年》
4、《锻炼会不会伤害膝盖》
热门跟贴