在这个部分,我们要学习使用 R 编程语言汇总数据的不同统计方法。
算数平均数
算术平均数是指在一组数据中,所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。
中位数
中位数是将数据样本的上半部分与下半部分分开的中间值。
众数
数据集中出现频率最高的值。
范围
一组数据的范围是最大值和最小值之间的差。
四分位数
将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。
最小的四分位数称为下四分位数,在所有数值中,有四分之一小于下四分位数,四分之三大于下四分位数。中点位置的四分位数就是中位数。最大的四分位数称为上四分位数,在所有数值中,有四分之三小于上四分位数,四分之一大于上四分位数。
Q1=第1四分位数,即第25百分位数;Q2=第2四分位数,即第50百分位数;Q3=第3四分位数,即第75百分位数。
四分位距
四分位距能粗略地表示数据集中间50%的数据的离散程度。它可以计算为第三四分位数 (Q3) 减去第一个四分位数 (Q1)。
方差
衡量一组数字与其平均值的距离。
标准差
用于量化一组数据值的变化程度或离散程度的度量。
五数概括法
提供有关数据集信息的一组描述性统计数据,包括最小值、第1四分位数、中位数、第3四分位数和最大值。
箱形图
一种基于五数概括法的数据描述统计图。
热门跟贴