本教程涵盖了整个ML过程,从数据获取、预处理、模型训练、超参数拟合、预测和存储模型以备将来使用。

我们将在不到10个命令中完成所有步骤,这些命令是自然构造的,并且非常直观易记,例如:

create_model(),tune_model(),compare_models()plot_model()evaluate_model()predict_model()

让我们看看全局:

打开网易新闻 查看精彩图片

在大多数库中,不使用PyCaret重新创建整个实验需要100多行代码。PyCaret还允许你执行更高级的操作,例如高级预处理、集成、广义叠加和其他技术,这些技术允许你完全定制ML管道,这是所有数据科学家必须具备的。

PyCaret是一个开源的、底层的、使用Python的ML库,它允许你在几分钟内从准备数据到部署模型。因为在编程上花费的时间要少得多,它允许科学家和数据分析员高效地执行迭代数据科学实验,并允许他们更快地得出结论。这个库非常类似于Caret de R,但是它是用python实现的。

在数据科学项目中,理解数据通常需要很长时间(EDA和特征工程)。那么如果我们能把花在项目建模部分的时间减少一半呢?让我们看看怎么做。

首先我们需要先决条件:

  • Python 3.6或更高版本
  • PyCaret 2.0或更高版本

在这里你可以找到库的文件和其他:https://pycaret.org/ 。

首先,请运行以下命令:!pip3 install pycaret

对于google colab用户:如果你在google colab中运行此笔记本,请在笔记本顶部运行以下代码以显示交互式图像。

frompycaret.utilsimportenable_colabenable_colab()

Pycaret模块

Pycaret根据我们要执行的任务进行划分,并且有不同的模块,这些模块代表每种类型的学习(有监督的或无监督的)。在本教程中,我们将使用二分类算法研究监督学习模块。

分类模块

PyCaret分类模块(pycaret.classification)是一个有监督的机器学习模块,用于根据各种技术和算法将元素分类为二类。分类问题的一些常见用途包括预测客户违约(是或否)、客户放弃(客户将离开或留下)、遇到的疾病(阳性或阴性)等等。

PyCaret分类模块可用于二或多类分类问题。它有18个以上的算法和14个分析模型性能的曲线图。无论是超参数调整、加密还是诸如堆叠之类的高级技术,PyCaret的分类模块都有。

打开网易新闻 查看精彩图片

在本教程中,我们将使用一个UCI数据集,称为默认信用卡客户数据集。此资料集包含2005年4月至2005年9月中国台湾信用卡客户的拖欠付款、人口统计资料、信用资料、付款记录及帐单结算单的资料,包含24000个样本和25个特征。

数据集可以在这里找到:https://drive.google.com/file/u/2/d/1bVUAk2Y4bdqKx-2NAPk0b4mIOv078zl6/view?usp=sharing 。

所以,将数据集下载到你的环境中,然后我们将像这样加载它:

[2]:

importpandasaspd

[3]:

df=pd.read_csv('datasets/defaultofcreditcardclients.csv')

df.head()

[4]的输出:

打开网易新闻 查看精彩图片

1-获取数据

还有另一种加载方法。实际上,这将是我们在本教程中使用的默认方式。它直接来自PyCaret数据集,是我们管道的第一个方法:

打开网易新闻 查看精彩图片