通常,对数据分析领域感兴趣的人会认为“数据分析就是处理数据”,这在一定程度上是正确的,但主要问题是“你将如何处理数据?”。

首先为了建立机器学习模型,我们需要了解数据中的底层模式,这将有助于决定应该使用哪种特定的 ML 算法来提供问题的解决方案。

为了理解,我们需要统计学的基础知识,所以下面我们就要来讨论一些非常基础和重要的统计学知识。

数据是事实和记录的集合,它提供了对“发生了什么”、“什么时候发生”和“正在发生什么”的理解。

在数据分析方法论的帮助下,我们使用可用的相关数据,并尝试预测“未来可能发生的事情”和“可能发生的时间”。为了得出这些结果,我们需要掌握大量的统计知识,这有助于理解数据代表什么。

例如,假设你被要求在一个研讨会上谈论全球变暖,你要做的第一件事是什么?

找出什么是全球变暖,它的历史,它对地球的影响,然后你需要拿出一些有用的信息,整合它,为演讲做准备。

这里,全球变暖是你拥有的数据,使用这些数据你需要提供信息,如果是主观数据,我们可以在互联网上浏览或阅读一些书籍来收集信息,但是,如果数据是分类数据或数字数据(分类指的是使用字符串值表示的数据,例如,狗的品种或猫的品种等;数字是指使用数字表示的数据,例如,过去两年的温度等),则需要统计数据,从这些数据中提取信息。

我们有两类统计数据:1. 描述性统计,2. 推断统计。

描述性统计:当有很多的数据时,我们会尝试用一些有代表性的数字来表示这些数据。通过计算平均值、中位数或众数,来反映总体的特征。比如,已知一个班级所有同学的身高,我们可以通过计算这些数据的平均值,然后得出该班级学生的平均身高是165cm,这就是描述性统计。

推断统计:当我们从数据中抽取样本,并试图从中推断出一些有用的信息,这些信息就代表了整个数据。简单来说,我们从整个数据中获取样本数据,并尝试将样本推断与整个数据联系起来。

假设我现在需要知道某个省的人口的身高,那么该如何表示这些数据呢?

计算总人口的算术平均值非常困难,因此我们可以考虑一个代表总体的样本。通过计算样本中身高的算术平均值来得出结论。

总体均值用 μ 表示,样本均值用 x̄ 表示。