各位同学,大家好。我是超越老师。拖更了好久,最近课有点多,哈哈~

同学们还记得甄嬛传系列吗?往期在这

本期来讲解相关量数。

本文包含知识点:相关量数

相关量数

众所周知,相关量数是一个统计中重要的概念,但很多人其实不知道相关量数的实际运用,以及该如何深刻理解一个相关值所涵盖的意义。

本次所用到的变量数据除了前几期说过的,集数、皇上词频、皇后词频,还加入了一些新的变量,来说明相关的内容。

正向情感:Nvivo情感自动分析出每集中出现的带有正性情感的词汇数量。

负向情感:Nvivo情感自动分析出每集中出现的带有负性情感的词汇数量。

甄嬛词频:这里选用每集出现的甄嬛、钮祜禄·甄嬛、熹贵妃等甄嬛常用名称作为甄嬛词频

于是,我们可以很容易得到这7个变量的两两相关矩阵表。这里默认全部为连续数据,因此均为积差相关。不同的相关计算的区别,仅是当变量数据类型不同时,采用不同的计算方式。但相关值的涵义没有区别。

(本文暂且不考虑相关显著性的问题)

我们根据上表可以很清楚地看到各个变量之间的相关性。

正相关:

例如,正向情感与姐姐词频之间有明显的正相关r=0.387。那么可以理解为,当一集中姐姐词频出现的越多,带有正向情感的成分也在增加。看来,当剧中多出现姐姐一词的时候,是多么的和睦美好。

负相关:

例如,集数与姐姐词频之间有明显的负相关r=-0.342。那么可以理解为,随着集数的增加,剧情的深入,姐姐词频出现的越来越少。姐姐追着姐姐,追着追着,姐姐都没了…………

零相关:

例如,皇后词频与集数之间几乎没有相关性r=0.006。那么可以理解为,皇后词频与集数的变化没有关系,当集数增加时,皇后词频的变化是无规律的。

需要注意:

当两个变量存在相关关系时,有三种可能性。例如,甄嬛词频与集数呈现明显的正相关r=0.342。

可能1:甄嬛词频越多,导致集数在增加。

可能2:集数增加,会导致甄嬛词频增加。

可能3:有一个C变量,该变量增加时,同时导致甄嬛词频与集数增加。例如,C为甄嬛的能力。甄嬛的能力增加时,剧中台词有关甄嬛的词汇就会越来越多(甄嬛词频增加),剧情也越来越深入(集数增加)。而甄嬛词频与集数之间没有关系。

所以,相关关系无法等同于因果关系。只能认为二者共同变化,但至于谁是因果,无法确定,也无法排除额外变量。

同时,相关关系系数值受到样本容量的影响。样本容量需要大于等于30。例如,如果我这里只选取“甄嬛回宫复仇”的部分,即55-76集的相关变量数据做分析的话会发现,原本全集数中,甄嬛词频与正向情感的相关值是-0.199,但当样本减少后,甄嬛词频与正向情感的相关值就变成了-0.439——这便是虚假相关。(由于特殊样本量或样本量小导致的高相关)

上述的变化中,由于相关系数是顺序数据,只能比大小,不能说明倍数关系。因此就算我改变样本量,导致相关值从-0.199到-0.439,数字上看起来差了一倍之多,但实际上并没有倍数说法,只能说一个小,一个大。

最后,零相关仅代表没有线性关系,但有可能其中有非线性关系,例如U型关系或者倒U型关系。

相关性多用散点图表示,我们在前面有一期的文章中有统计图表的讲解,不再赘述。

上面我们已经用过积差相关,是为两列连续数据时相关所用。例如,随着集数的增加,甄嬛词频也在增加。(这里可以将集数视为连续数据,作为剧情深入的指标值。)

如果是两列顺序数据,则采用等级相关。例如,甄嬛的位份与宿舍的等级,这个不用分析,很明显为正相关。(废妃-凌云峰,菀嫔-碎玉轩,熹贵妃-寿康宫)。如果是非正态的连续数据也可以转为顺序数据做等级相关。

如果是多个事物进行多种评价,可以用肯德尔W系数。例如,甄嬛的惊鸿舞与纯元的惊鸿舞,被王爷和皇帝评价。则得出的W系数值可以说明王爷与皇帝评价的一致性,如果甄嬛的舞都被二者高评分,纯元的舞蹈都被二者低评分,则说明王爷与皇帝两位评分者非常一致。但如果甄嬛的舞,王爷高评分,皇帝低评分,纯元的舞,王爷低评分,皇帝高评分,则这个情况的W系数值就会偏低,说明两位评分者之间不一致。

如果让所有的嫔妃一起跳惊鸿舞,如果这样一个个打分就太麻烦了。可以让其两两配对。嫔位以上与嫔位以下,然后让王爷和皇帝选喜欢谁。这时就可以用肯德尔U系数,进行对偶比较后,来判断其一致性。

如果将甄嬛去凌云峰前赋值为1,甄嬛回宫后赋值为2,则我们可以将这个人为二分数据与其他词频的连续数据做相关。这时所用的就是二列相关

如果将剧中的男性角色赋值为1,女性角色赋值为2,则性别这个真正二分变量与其他词频的连续数据做相关的时,所用的就是点二列相关

如果将两个真二分变量做相关,则所用的就是品质相关。例如,阿哥的亲生与否,和皇帝的喜欢与否。

下一期,将进入推断统计的内容。会越来越硬核哦~

(本文图片来源网络,侵删)

勤思集训:|

勤思网课:| | | | | | | | | | | | |

勤思资料:| | |

勤思服务:||| | | |

免费课程:|| |