下期预告:集中量数(平均数、众数与中数)
各位同学,大家好,我是超越老师。
本文包含知识点:①统计表②统计图
本文的数据来源,是我将甄嬛传全集(共计76集)的台词提取出后,进行分析的结果。全部台词总计506379个字。首先导入Nvivo进行了词频分析,全剧中提及最多的词是“皇上”,共计出现4432次。
其次是“娘娘”,共计出现2743次。排第三位的是“皇后”,共计出现1192次。后续分析还使用Excel与SPSS作为工具。
下图为对全部台词分析后,词频排名前100的词汇所形成的词云图
一,统计表
既然皇上如此重要,我们就对“皇上”词频进行进一步分析。
图1为简单次数分布表,“皇上”词频数出现的次数。同学们明显可以看出,图片被拉的很长,杂乱无序,很难识别有效信息,所以,简单次数分布表只适用于当分布范围较小时使用。
于是为了更简要的表达,我们需要对皇上词频数进行分组,然后再以列表的形式呈现,即分组次数分布表。根据步骤进行操作。
①求全距,就是最大数和最小数之间的差距。最多的一次是121次,最少的一次是5次。全距为116。
②决定组距和组数。这里可以根据情况,自行决定。为了便于计算,将其分为4组,即组数为4,组距为29。
③列出分组区间。那么就有表述上下限(5-33,34-62,63-91,92-121)。
精确上下限为,以第一组为例,即为(4.5-33.499)。后面三组同理。精确上下限更多具有理论意义,无现实意义。例如,不可能会出现一集台词中有4.5次皇上的词频。
但理论上必须要用精确上下限。因为现实中即便不存在中间的小数点,但理论上必须表明这些位置区间。
④登记次数:将数据登记到相应的组别内。
计算次数:计算各组次数和总次数并核对,然后写出组中值、次数(频数)和百分数
然后再把相对频率、累积频次与累积频率加入表格中,就形成了一个累加次数分布表。如图2所示。
如此,我们便很清晰地看出,皇上词频数共有76个数据(因为有76集),占比最多的是46.1%的(34-62)这一组。也可以通过累加频次与累加频率直接看出,有57集,占全集数88.2%,皇上词频数低于91次。
二,统计图
什么?你觉得表格难看?那我们换成图试试。
直方图:
饼图:
注:1、2、3、4分别对应上述组1、组2、组3、组4。下同。
条形图:
①描述的数据类型不同。条形图描述称名数据,而直方图描述分组的连续性数据;
②表示数据多少的方式不同。条形图用直条长短表示,而直方图用用面积表示数据多少;
③坐标上的标尺分点意义不同。条形图的一个坐标轴是分类轴,而直方图的一个坐标轴上表示的是另一个刻度值;
④图形直观形状不同。条形图之间有间隔,直条与直条之间的间隔大小没有任何关系,不表示任何意义。而直方图各个直方块之间紧密相连,没有间隔。
散点图:
这里需要引入第二个数据,因为散点图是用来描述两个数据之间的关系的。于是我们加入【集数】这个数据列。很明显可以看出,毫无关系。
折线图:
其实就是把上面这些点连起来。用来表示趋势。虽然在散点图我们啥也没看出来,但是到了折线图这里,我们就很明显的看到,皇上词频数是随着集数忽高忽低的,也反映了甄嬛传在叙事的时候,要么围着皇帝转,要么围着别人转。
有趣的是,在43-50集左右时,尤其是第48集,出现了历史最低值。至于为啥,想必都清楚吧,哈哈哈。
通过本次研究发现,“皇上”一词是甄嬛传台词中出现最多的词汇。不愧是真龙天子,整个皇宫的人都在围着他转。
但是想想,一共76集的剧情里,每集40分钟,平均每分钟出现1.46次。也就是说,每2分钟,就会被提及3次。关键是,这还不知道每次被提,到底是好事还是坏事呢。
——本文图片来源于电视剧《甄嬛传》,侵删
-今日互动-
你看剧的时候数“皇上”的数量了没?
勤思集训:|
勤思网课:| | | | | | | | | | |
勤思资料:| | |
勤思服务:||| | | |
免费课程:|| |
热门跟贴