统计方法适用情形合集 | 相关与回归篇|斯皮尔曼|正态|正态分布

这周到统计方法适用情形的第三期了，我们都知道，心理学统计的一个重要目的是应用，而这一期要讲到的，也是生活中我们最常遇到的方法。

逢毕业季，假如我们想对某学校的全体学生进行了身高体重的调查，看看这四年大家的营养状况如何。

收集了大家的身高数据和体重数据后，我们想先看看身高与体重的相关性如何，可以使用相关分析中的积差（皮尔逊）相关的方法求两组数据的相关系数的值。

如果我们想把身高与体重的关系用具体数学模型表示，则可以对他们进行回归分析，得到数学模型，比如我们所知的BMI计算公式。

如果时间比较紧，我们可以只随机抽取某一个班级的身高体重数据代表总体，这时使用积差相关的方法则稍微欠佳，可以换成使用斯皮尔曼等级相关的方法来进行分析。

我们还可以后续探究学生们对于当下学生群体的身材状况的看法，可以邀请一些同学对于样本的身高体重情况进行评分，使用肯德尔相关系数来讨论他们对于身高体重的看法。

众所周知，心理学界存在很多现象，现象之间会有普遍的相互联系和制约。这些现象（因变量Y）不仅和它有关的现象（自变量X）构成一个普遍联系的整体，并且这些现象的内部也存在着许多彼此关联、相互制约的因素（自变量X之间的相关性）。

相关分析只表明变量间相关关系的性质和程度，回归关系则是确定变量间相关的具体数学形式。

二者之间的关系简单来说就是：只有当变量之间存在高度相关时，进行回归分析寻找其相关的具体形式才有意义。

因而从分析角度，应该先进行相关分析，完成相关分析后，确认有了相关分析，再进行回归分析。

事实上，无论是相关分析还是回归分析，都是希望发现多组数据之间可能存在的、并且需要用数学方法来证明的潜在关系，因此这两种都可以算是探讨数据间相关性领域的方法。

当然，这两种方法彼此有联系，又可以应用于不同的统计情况中，我们让一位统计高分同学用例子和大家讲讲相关分析和回归分析在实际中是怎么具体应用的。

图片来自上岸学霸分享

相关

1）积差相关

“八字”口诀（成对、正态、连续、线性）

成对是指数据要成对出现，即每个个体都有两种不同的观测值，且每对数据都是独立的；正态是指两列变量各自的总体分布都是正态的（大样本）；连续指的是两列变量是连续变量（等比和等距数据）；线性指两列变量之间的关系是线性的而不是非线性的。

2）等级相关

斯皮尔曼等级相关适用于顺序数据，没有大样本的限定，所以也适用于非正态的等比和等距数据，同样也要求两列变量之间具有线性关系。

肯德尔W系数和肯德尔U系数适用多列数据（斯皮尔等级相关只适用于两列数据），两者的区别在于采用的方法不同，肯德尔W系数适用的是等级评定法，肯德尔U系数采用的是对偶比较法。

3）质量相关（称名-连续）

点二列相关适用于两列数据，其中一列数据是等比或等距数据，另一列数据是真正的二分数据。

二列相关适用于两列变量都是等比或等距数据，但是其中一列数据被人为二分。

4）品质相关（称名-称名）

四分相关适用两列数据都为等比或等距数据的变量，但是两列数据都被人为地分成两类。

Phi相关适用于两列变量都是真正的二分变量。

举例1

例1：表中是10名中学生的身高与体重的测量结果，已知中学生的身高和体重分布都是正态的且两者为线性关系，问身高和体重的关系如何？

分析1：题目给出了中学生的身高和体重的分布为正态分布且两者为线性关系，表中给出了两列数据，由于身高和体重都属于测量数据，所有两者都为连续数据，题目所给出的条件符合积差相关的前提（成对、正态、线性、连续），所以可以使用积差相关来计算身高和体重的关系。

分析2：如果题目没有给出中学生的身高和体重为正态分布的假设，那么两者是否正态就是不确定的，虽然表中的数据是测量数据，但是表中的数据只有10对为小样本，属于非正态的等距\等比数据，除此以外身高和体重呈线性关系，满足等级相关的前提条件，所以可以使用等级相关进行计算，因为只有两列数据可以直接使用斯皮尔曼等级相关（肯德尔等级相关也有可以处理两列数据的方法，叫做交错系数，但它的功能和斯皮尔曼等级相关一致，所以我们常用斯皮尔曼等级相关，肯德尔相关系数大多数情况下在有多列数据时使用）。

斯皮尔曼等级相关还可以分为有相同等级和没有相同等级的情况，两者的思想是一致的只是在计算时二者使用的计算公式不同。

分析3：如果题目想要研究身高、体重和跑步成绩之间的关系且没有给出正态假设，那就可以使用肯德尔相关系数来进行计算。因为数据为多列数据，且符合等级相关的前提条件。

肯德尔等级相关有多种方法，常用的就是肯德尔W系数和肯德尔U系数，两者也存在有相同的等级和没有相同的等级的情况，同样的，两种情况计算时思想一致，计算公式不同而已。

肯德尔W系数进行计算时使用的是等级评定法，肯德尔U 系数进行计算式使用的是对偶比较法。

举例2：

有一是非选择测验，每题2分，一共50题，满分100分，表中是10名学生在测试中的总成绩和某一题的选答情况，问这道题和测验总分的相关程度如何？

分析1：题中测验总分为连续数据，是非题的对错为真正二分，符合点二列相关的前提条件，所以应该使用点二列相关来计算两者之间的关系。

题目中需要我们求的关系又叫做题总相关，一般情况下题总相关我们都用点二列相关的方式来进行计算，题总相关在选择题和答题当中都有可能出现，需要好好理解和掌握，如果题目问某一个题（二分数据）和总分的关系，大部分情况下都是选择点二列相关的方法来进行计算。

分析2：如果题目不是要计算是非题的题总相关，而是将某个题目根据标准分成了对错两类，需要计算这道题目和测验总分的关系，那么就要使用二列相关。

与例2中不同的是这个题中的某个题目是根据一定的标准被人为的分为两类，而不是本身就属于二分数据。

举例3：

下表所列的数据是调查377名学生的两科测验成绩所得的结果，假设两科成绩的分布为正态，但人为地将两科成绩分为了及格与不及格，问两科成绩之间的关系？

分析1：历史成绩和地理成绩为等距数据，且题目给出两科成绩呈正态分布，所以两列数据都是连续数据，但是又被人为地分成了及格和不及格两类，符合四分相关的前提条件，所以使用四分相关来计算两者之间的关系。

分析2：如果研究者研究的不是各科成绩之间的关系，而工作状态（有工作\无工作）和生活满意度（满意\不满意）之间的关系，那么就要使用phi相关来进行计算，因为工作状态和生活满意度都属于真正的二分变量，两个变量中间都有一个真正的缺口。不过在实际应用中不论是真正的二分变量还是人为的二分变量都可以使用phi相关来进行计算。

回归

在心理学的研究中，目前主要是研究变量之间的线性关系，非线性的关系考虑的比较少，所以我们要在变量之间存在着线性关系的基础上建立回归方程。

相关是回归的基础，相关可以表示变量之间的密切程度，而回归则是在相关的基础上通过大量的观测建立变量之间的数学模型，从而用一个变量去预测另外一个变量，获得一个准确的推算值，所以建立回归的目的是为了预测，在心理学的考试中，需要重点掌握的是一元线性回归，对于多元线性回归大家了解即可。