下期预告:集中量数(平均数、众数与中数)

各位同学,大家好,我是超越老师。

本文包含知识点:①统计表②统计图

本文的数据来源,是我将甄嬛传全集(共计76集)的台词提取出后,进行分析的结果。全部台词总计506379个字。首先导入Nvivo进行了词频分析,全剧中提及最多的词是“皇上”,共计出现4432次。

其次是“娘娘”,共计出现2743次。排第三位的是“皇后”,共计出现1192次。后续分析还使用Excel与SPSS作为工具。

下图为对全部台词分析后,词频排名前100的词汇所形成的词云图

打开网易新闻 查看精彩图片

一,统计表

既然皇上如此重要,我们就对“皇上”词频进行进一步分析。

图1为简单次数分布表,“皇上”词频数出现的次数。同学们明显可以看出,图片被拉的很长,杂乱无序,很难识别有效信息,所以,简单次数分布表只适用于当分布范围较小时使用。

打开网易新闻 查看精彩图片

于是为了更简要的表达,我们需要对皇上词频数进行分组,然后再以列表的形式呈现,即分组次数分布表。根据步骤进行操作。

①求全距,就是最大数和最小数之间的差距。最多的一次是121次,最少的一次是5次。全距为116。

②决定组距和组数。这里可以根据情况,自行决定。为了便于计算,将其分为4组,即组数为4,组距为29。

③列出分组区间。那么就有表述上下限(5-33,34-62,63-91,92-121)。

精确上下限为,以第一组为例,即为(4.5-33.499)。后面三组同理。精确上下限更多具有理论意义,无现实意义。例如,不可能会出现一集台词中有4.5次皇上的词频。

但理论上必须要用精确上下限。因为现实中即便不存在中间的小数点,但理论上必须表明这些位置区间。

④登记次数:将数据登记到相应的组别内。

计算次数:计算各组次数和总次数并核对,然后写出组中值、次数(频数)和百分数

然后再把相对频率、累积频次与累积频率加入表格中,就形成了一个累加次数分布表。如图2所示。

打开网易新闻 查看精彩图片

如此,我们便很清晰地看出,皇上词频数共有76个数据(因为有76集),占比最多的是46.1%的(34-62)这一组。也可以通过累加频次与累加频率直接看出,有57集,占全集数88.2%,皇上词频数低于91次。

二,统计图

什么?你觉得表格难看?那我们换成图试试。

直方图:

打开网易新闻 查看精彩图片

饼图:

打开网易新闻 查看精彩图片

注:1、2、3、4分别对应上述组1、组2、组3、组4。下同。

条形图:

打开网易新闻 查看精彩图片

现在对于条形图直方图的区别,可以一目了然。

①描述的数据类型不同。条形图描述称名数据,而直方图描述分组的连续性数据;

②表示数据多少的方式不同。条形图用直条长短表示,而直方图用用面积表示数据多少;

③坐标上的标尺分点意义不同。条形图的一个坐标轴是分类轴,而直方图的一个坐标轴上表示的是另一个刻度值;

④图形直观形状不同。条形图之间有间隔,直条与直条之间的间隔大小没有任何关系,不表示任何意义。而直方图各个直方块之间紧密相连,没有间隔。

散点图:

这里需要引入第二个数据,因为散点图是用来描述两个数据之间的关系的。于是我们加入【集数】这个数据列。很明显可以看出,毫无关系。

打开网易新闻 查看精彩图片

折线图:

其实就是把上面这些点连起来。用来表示趋势虽然在散点图我们啥也没看出来,但是到了折线图这里,我们就很明显的看到,皇上词频数是随着集数忽高忽低的,也反映了甄嬛传在叙事的时候,要么围着皇帝转,要么围着别人转。

打开网易新闻 查看精彩图片

有趣的是,在43-50集左右时,尤其是第48集,出现了历史最低值。至于为啥,想必都清楚吧,哈哈哈。

打开网易新闻 查看精彩图片

通过本次研究发现,“皇上”一词是甄嬛传台词中出现最多的词汇。不愧是真龙天子,整个皇宫的人都在围着他转。

但是想想,一共76集的剧情里,每集40分钟,平均每分钟出现1.46次。也就是说,每2分钟,就会被提及3次。关键是,这还不知道每次被提,到底是好事还是坏事呢。

打开网易新闻 查看精彩图片

——本文图片来源于电视剧《甄嬛传》,侵删

-今日互动-

你看剧的时候数“皇上”的数量了没?

勤思集训:|

勤思网课:| | | | | | | | | | |

勤思资料:| | |

勤思服务:||| | | |

免费课程:|| |