——《AI罗慢罗懒》第11期——

“平均数陷阱”

平均数并不平均

它很多时候是一个陷阱

2024年央行发布的数据

称我国人均存款11万

你觉得这可能吗?

如果你一家四口

那就是44万存款

很多人一看就要暴走

想去找央妈讨说法

我的钱钱哪去了?

央妈真的吞了你的钱吗?

别激动

做妈的应该不会这么残忍

这里存在一个

平均数的“离散偏差”

什么意思呢?

你和灭霸的身高平均一下

大概也有196

还有一个段子:

赵家有钱一千万

九个邻居穷光蛋

平均起来算一算

阿Q也有一百万

真相就在这里

所以不要情绪化

你可能只是被平均了而已

没有谁私吞你的银子

当然

这也不能全怪你

因为央妈

没有公布全部真相

只告诉了你1/3的内容

真相就是

一个完整的“平均数”

其实包括三个数

第一个是“算术平均数”

它是所有样本的均值

也就是现在公布的平均值

第二个是“中位数”

它是所有样本

按顺序排列在中间位的数

如果人数总共是9位

那么第5位对应的F(x)值

就是中位数

第三个是“众数”

它是样本里

出现最多的那个数

例如14亿中有6亿人

月收入1000元

这个1000大概率是众数

真相就是这么残酷

以上三个数

才是平均数的冰山全貌

因此

如果要实事求是

这三个数需要一起公布

如果只公布算数平均数

那就是耍流氓

例如上海宣称人均工资9000

很多人非常惭愧

觉得自己7000拖了后腿

但实际工资中位数是6000

而众数可能是4500

现实的真实情况就是

你的7000已经超过大部分人

别惭愧

上海人民感谢你

这里要注意的是

在一个数据正态分布的样本里

也就是贫富差距不大的社会

平均数、中位数、众数

基本相同

但在一个数据离散的样本里

也就是基尼系数极大也就是贫富不均的社会

平均数、中位数、众数

差异极大

这个时候的统计结果

如果只公布算术平均数

而不公布中位数和众数

那就非常的不科学

因为平均数不平均

这样的数据只会产生幻觉

让人无法了解全部真相

与大多数人的体验不符

理解平均数三要素之后

回头再来看人均存款11万

这次央妈公布的数据

就应该同时

公布中位数和众数

也就是排名第7亿的那一位

她的存款到底是多少呢?

我先猜一个

可能是5万元