本文转载自微信公众号“小白学统计”,感谢作者授权。

统计分析方法有很多,从简单的组间比较到复杂的各种模型,如果你感兴趣,有众多的统计方法足够你徜徉在统计学的海洋之中。当然,统计学方法的误用也不在少数,国内的医学杂志中,毫不夸张地说,几乎每一本杂志总能找出一些统计学上的错误。

对于非统计学专业人士,专门去学各种复杂的方法确实有点过于为难,而且从杂志中的错误来看,绝大多数的错误其实都是最基础的错误,为什么呢?我个人觉得,可能是因为复杂方法非统计专业人士不会用,只能去请教统计学家,反而不容易出错。越是简单的方法,可能大家都想干脆自己做算了,结果反而漏洞百出。

所以本文主要是用一张图来介绍一下,对于定量资料,如何选择组间比较方法。这里要明确两个问题:一是针对的是定量资料,二是针对组间比较

什么是定量资料?这个问题可能过于简单,不过还是先说一下。定量资料有很多特征,起码可以有单位,比如身高,你知道单位是cm或m。而对于性别,你想象不出它的单位是什么,因为它只能有男和女。

定量资料可以分为连续资料和离散资料连续资料,顾名思义,就是数值连绵不断,想象一下在一个坐标轴上,你可以从负无穷到正无穷取任意值,可以有小数点。

离散资料是只能取整数,比如红细胞计数,单位是个。当然如果你指定不同单位,有时看起来离散资料好像也可以取小数点。比如3.5X1012,单位太大,所以前面的数值可以带小数点,但如果单位是个,那前面数值肯定不是小数点。

什么是组间比较?我们都知道看,数据分析的目的有很多,你可以探索多个变量的关系,可以看不同组的差异比较,可以看如何对数据进行分类,等等。组间比较是一种比较简单的思想,就是你采用相应的设计方法(如完全随机设计),把人群分为两组或多组,比较各组之间的均值或率有没有统计学差异。涉及的因素很简单,就是一个组别因素。所以,对于这类研究目的,选择方法的时候,只要稍微注意下,一般不会选择错误。但现实的问题是,很多人都不注意细节,所以反而容易出错。

下面就是关于组间比较的常用统计方法选择的图示,根据这一图示,可以比较容易选择相应的统计分析方法。

比如,你做了一个完全随机设计,比较两种降压药的疗效,最后的分析结局指标是血压的降低值,这是一个连续资料。完全随机设计直接看左边部分就行了。既然是两组,那就看两组的部分。设计方法和组别这都是你自己应该知道的。

然后接着判断两组数据是否服从正态分布(要分别每组看),如果不满足正态分布,我们可以看到,线条直接指向了Wilcoxon秩和检验,那你就用这种方法就好了。

如果满足正态分布,还得继续做方差齐性检验(也就是比较两组的方差是不是相等),如果方差齐(两组方差相等),指向t检验,那就用t检验就好了。如果方差不齐(两组方差不相等),指向t’检验,那就用t’检验(具体检验方法如Satterthwaite t检验或Cochran t检验均可)。

如果你做了一个配对设计,那就看右边部分,根据组别数是2组还是多组(这个你自己很清楚),然后看正态性,根据正态性结果,选择相应的统计方法。

看起来很简单是不是?你需要做的就是判断以下几条:

(1)设计类型。是完全随机设计还是配对设计。这个是你自己的数据,你自己应该很清楚。可能有的人说,我想比较男女之间的血压值,或者不同年龄组的发病率,这个没什么设计,这种比较的方法就等同于完全随机设计的比较方法。一般来说,除非你很清楚自己做的是配对设计,否则就选择完全随机设计的比较方法就行了。

(2)比较的组别数。这个你要是不知道,那我就没有办法了。

(3)正态性的判断。虽然这个听起来你可能不懂,但你随便找个统计软件,都能做这个,你只要根据结果来判断一下就行了。正态性检验可能在软件中会出现多个结果,比较常用的是Shapiro-Wilk检验,如果你看到这个检验结果的P值小于0.05,那可能提示数据是非正态的。或者你也可以简单地绘制个直方图,看一下简单的数据分布情况,如果比较对称,说明是正态的,否则可能是非正态的。比如下图,左边就是正态分布,右边就不是正态分布。

(4)方差齐性的判断。所谓方差齐性也就是各组之间的方差是否相等,其实也就是看一下每组数据的波动情况是不是一致,如果有的波动大,有的波动小,那可能就是方差不齐,就需要采用一些备用方法。同样的,方差齐性也很容易在软件中实现,如果你看到方差齐性检验结果的P值小于0.05,那可能提示方差不齐。比如下图,左边的两组方差相等,右边的两组方差不相等,因为右边图中,左图比较集中,波动比较小,右图比较分散,波动相对较大。

其实仔细看看,并不是很难,有2条是你自己眼睛瞅瞅就知道了,另外两条你只要用随便一个统计软件就可以知道结果。然后你就根据这些条件和结果顺藤摸瓜,找到相应的方法就行了。

本文主要是介绍一下选择这些方法的思路。通过本文,我想你应该明白,并不是一看到两组比较就一定要选择t检验,也不是多组比较一定要用方差分析的。世界很大,去罗马不止一条路,多走几条路,才知道哪个是最合适的。