在这个部分,我们要学习使用 R 编程语言汇总数据的不同统计方法。

算数平均数

算术平均数是指在一组数据中,所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

中位数

中位数是将数据样本的上半部分与下半部分分开的中间值。

众数

数据集中出现频率最高的值。

范围

一组数据的范围是最大值和最小值之间的差。

四分位数

将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。

最小的四分位数称为下四分位数,在所有数值中,有四分之一小于下四分位数,四分之三大于下四分位数。中点位置的四分位数就是中位数。最大的四分位数称为上四分位数,在所有数值中,有四分之三小于上四分位数,四分之一大于上四分位数。

Q1=第1四分位数,即第25百分位数;Q2=第2四分位数,即第50百分位数;Q3=第3四分位数,即第75百分位数。

四分位距

四分位距能粗略地表示数据集中间50%的数据的离散程度。它可以计算为第三四分位数 (Q3) 减去第一个四分位数 (Q1)。

方差

衡量一组数字与其平均值的距离。

标准差

用于量化一组数据值的变化程度或离散程度的度量。

五数概括法

提供有关数据集信息的一组描述性统计数据,包括最小值、第1四分位数、中位数、第3四分位数和最大值

箱形图

一种基于五数概括法的数据描述统计图。