打开网易新闻 查看精彩图片

当我开始学习概率分布时,我感觉有点困难,因为内容很多并且名字都很陌生。现在我意识到,只要抛开它们背后的数学知识,这些概念其实很容易理解。我将从概念上讲一讲我认为最基本的概率分布,而不是数学方面的东西。你不仅将了解几种概率分布,而且还将认识到其中许多是相互密切相关的。

首先,你需要知道几个术语:

  • 概率分布只是表示得到不同结果的概率。
  • 离散分布是一种数据所能取的值是可数的分布。
  • 而连续分布是一种数据所能取的值是不可数的分布。

正态分布

打开网易新闻 查看精彩图片

正态分布是最重要的分布因为很多现象都符合这个分布。智商,身高,鞋码,出生体重都是正态分布。正态分布呈钟形曲线,具有以下特性:

  • 它有一个对称的钟形
  • 平均值和中位数相等,都位于分布的中心
  • 有≈68%的数据落在均值的一个标准差之内,有≈95%的数据落在均值的两个标准差之内,有≈99.7%的数据落在均值的三个标准差之内。

正态分布也是统计学的一个组成部分,因为它是一些统计推理技术的基础,包括线性回归、置信区间和假设检验。

T分布

t分布与正态分布相似,但通常更“矮”,尾部更厚。当样本容量较小时,它被用来代替正态分布。值得注意的是,随着样本容量的增加,T分布收敛于正态分布。

伽马分布

打开网易新闻 查看精彩图片

伽马分布用于预测未来事件发生前的等待时间。当某物的自然最小值为0时,它很有用。

卡方分布

打开网易新闻 查看精彩图片

卡方分布是伽马分布的一种特殊情况。由于卡方分布有很多,我就不详细讲了,但它有几个用途:

  • 它允许你估计总体标准差的置信区间
  • 当基础分布是正态时,它是样本方差的分布
  • 您可以测试预期值和观察值之间的差异的偏差
  • 你可以进行卡方检验

如果您对此感到困惑,请不要太担心,因为下面的概率分布更容易理解和掌握。

均匀分布

均匀分布其实很简单——每个结果都有相等的概率。

伯努利分布

打开网易新闻 查看精彩图片

为了理解伯努利分布,你首先需要知道伯努利试验是什么。伯努利试验是一种随机试验,只有两种可能的结果,成功或失败,每次成功的概率都是相同的。因此,伯努利分布是一个伯努利试验的离散分布。例如,抛硬币可以用伯努利分布表示。

二项分布

打开网易新闻 查看精彩图片

现在你理解了伯努利分布,二项分布只是表示多个伯努利试验。二项分布是离散分布表示n个独立伯努利试验中x次成功的概率。

以下是一些使用二项分布的例子:

  • 抛硬币10次中得到5次正面的概率是多少?
  • 从500个客户反馈调查中得到20个回复的概率是多少(假设得到回复的概率是相同的)?

二项分布的一个有趣之处在于当n变大时它收敛于正态分布。

几何分布

几何分布也和伯努利分布有关,就像二项分布一样,只不过它回答了一个稍微不同的问题。它的答案是“在你第一次成功之前需要进行多少次试验?”

举个例子,“我需要买多少张彩票才能中奖?”你还可以使用几何分布来找到伯努利(1-p)成功到失败的次数的概率。

威布尔分布

打开网易新闻 查看精彩图片

威布尔分布与几何分布相似,只是它是一个连续分布。因此,威布尔分布对某件事发生故障所需的时间或故障之间的时间进行了建模。

威布尔分布可以回答以下问题:一个灯泡要多久才能熄灭?

泊松分布

打开网易新闻 查看精彩图片

泊松分布是一种离散分布,它表示一个事件在特定时间内可能发生的次数。

泊松分布是排队理论中最常用的一种分布,它回答的问题是“在给定的一段时间内可能会有多少顾客(排队)?”