有些数据分析爱好者在研究事物间关系时,分不清函数关系、相关关系和因果关系,甚至把相关关系和因果关系混为一谈,导致最终研究结果跑偏。
实际上,这并不是只有普通研究者才会犯的错误,权威期刊《新英格兰医学期刊》曾刊登过一篇论文,论文的作者是纽约哥伦比亚大学的弗朗兹·梅瑟利博士,他发现“一个国家人均巧克力消费量和这个国家获得诺贝尔奖的人数有着密切关系,人均巧克力消耗越多,获得诺贝尔奖的概率也越高”。
该研究结果发表后,在当时引起了极大的关注和争议。有人调侃道:”瑞士、瑞典和丹麦的巧克力消费量位居前三,而美国的排行居中,若美国想多一位诺贝尔奖得主,每年需多摄入1.25亿公斤可可,而瑞士的人均摄入可可量每年高达3.4千克。”
2001年诺贝尔物理学奖得主埃里克・科内尔则认为该项研究可能毫无意义。
在研究中,若随意在两种事物上寻找关联,就会犯“巧克力决定诺贝尔奖得主”这类没有逻辑的关联错误。
本期内容,小编将带着大家从概念上对函数关系、相关关系和因果关系做一个简要梳理,帮助大家建立相关性的逻辑认知,最后着重给大家介绍统计学上常见的相关关系及其方法应用。
变量之间的关系有哪些?
在统计学中,根据变量之间的关系或数据类型,可将其之间的关系分为函数关系和相关关系。
函数关系
所谓函数关系,是指各变量之间的数值根据一个函数表达式形成对应关系,是一组严格确定的依存关系。当一个变量取一定值时,另一个变量有唯一的一个值与之对应。
例如计算圆面积的公式:S=π*r^,当已知圆的半径r,就可计算出圆的面积S。
即圆的面积S与圆半径r为一组函数关系。
变量之间的函数关系在自然科学中是普遍存在的,一些自然科学中的定理和公式都可理解为函数关系,这些函数关系揭示了变量之间存在的确定关系或作用。
相关关系
相关关系,是指变量数值间存在着非严格的依存关系。当一个变量取某个值时,另一个变量的值是不确定的,但是该变量的值会随着前一个变量的数值发生一定的变化规律。
例如人的年龄与体脂含量的关系:对于个体来说,同样年龄的人,体脂含量不一定相同,但是对群体来说,却出现体脂含量随着年龄增加而增高这一变化规律,这就是一种相关关系。
重点来了,在相关关系中,可能会出现以下几种特殊的情形,这也是为什么人们容易“误解”或“混淆”相关性。
1、因果关系。例如,一块农田的施肥量与小麦产量的关系,这既是一种相关关系,同时也是一种因果关系,施肥量是因,小麦产量是果。
2、相互依存的关系。例如,夜间睡眠质量与快乐指数具有相关关系,但在夜间睡眠质量与快乐指数的关系中,较难确定哪一个是因,哪一个是果,两个变量是相互依存的。在没有绝对理论依据的情况下,重联系,轻结论。
3、只存在数值上的相关关系。例如,有人将冰淇淋销量与溺水人数进行分析,发现这两者之间具有正相关关系:冰淇淋销量越高,溺水人数越多,这只是一种虚假的相关关系。上文提到的巧克力消费量和这个国家获得诺贝尔奖的人数就是一种典型的虚假相关关系。
如何初步判断数值相关性?
进行相关性分析的前提是将信息进行量化,散点图是一种判断变量间是否为直线相关的一种直观方法,可初步判定变量间是否存在数值上相关的可能性。
如果所有散点分布大致呈直线型,说明二变量之间呈线性相关。
如何看相关强弱?
由于研究对象的不同,相关系数有多种定义方式。较为常用的是统计学家卡尔·皮尔逊提出的皮尔逊相关系数,用来衡量两个变量之间相关紧密度(相关还是不相关)和相关方向(正相关还是负相关)。
相关系数越大,表示相关性越强。
根据两个变量间相关关系的方向,分为正相关和负相关。如果y随着x的增大而增大,那么两个变量之间就是正相关,反之就是负相关,如果两个变量间无明显方向联系,则是不相关。
判断相关性时,也需要考虑样本量。若样本量较小,受采样偶然性等因素影响,很可能无关的两类事物,却出现较大的相关系数;样本量很大时,往往分析出来的相关系数比较低,这是因为样本量的增大造成了差异的增大。
因此,在研究相关性时,需要采用相关性检验确定变量之间的相关性。
统计学上有哪些相关性检验法?
统计学上常用Pearson、Spearman、Kendall和Phi等多种相关性检验法,对应不同数据形态或变量类型的相关性分析。
生活中相关性分析的案例
人们乐于在生活中寻找事物之间的联系,下面我们借助MedSPSS,选择生活中的一些案例,从统计学的角度对它们进行相关性研究。
例一:“万病皆从胖而起”,肥胖也是高血压危险因素之一,很多研究表明体重的增加会伴有血压的升高。我们基于体重和血压(收缩压)之间的一组数据,采用Pearson分析法检验两者之间有多大程度的相关性。
分析表明:体重与血压具有显著相关性,相关系数达到了0.528,表明两者具有较高的相关性。因此,要保持血压的正常,控制体重就显得非常重要了。
例二:有些人认为,数学成绩好的学生,语文成绩较一般;语文成绩好的学生,数学不会太好,只有部分学生的数学和语文成绩会同时很好。那么数学和语文成绩到底是否存在这种逆向的关联呢?我们通过一组学生的数学和语文成绩(优、良、中、及格、不及格),采用Spearman分析来揭示这两者之间的关系。
分析表明:语数成绩间不具有显著相关性。即语数成绩的好坏没有关联,更没有逆向关联。数学和语文的学习需要采用不同的学习方法和学习思维,只要用对方法和思维,就能同时学好。
例三:吸烟有害健康是公认的,吸烟与癌症的发生有多大关系呢?通过吸烟与是否患癌之间的一组数据,吸烟与否(X)分为吸烟与不吸烟,用1,0表示,是否患癌(Y)分为患癌与不患癌,用1,0表示,试求它们之间的相关性。
分析表明:吸烟与患癌具有显著相关性,相关系数达到了0.503,两者相关性较高。一些相关的研究也认为吸烟是癌症的病因,吸烟不仅和肺癌有关,还会增加患其它癌症的风险,戒烟任何时候都不晚。
写在最后:分析相关性问题时,我们首先要进行定性分析,从逻辑或相互依存关系上找关联,然后才是从统计学的角度,进行相关性的验证,避免得出不可靠的结论。
热门跟贴