用PyCaret创建整个机器学习管道

IT互链

2023-05-24 10:03 ·江西

本教程涵盖了整个ML过程，从数据获取、预处理、模型训练、超参数拟合、预测和存储模型以备将来使用。

我们将在不到10个命令中完成所有步骤，这些命令是自然构造的，并且非常直观易记，例如：

create_model(),tune_model(),compare_models()plot_model()evaluate_model()predict_model()

让我们看看全局：

在大多数库中，不使用PyCaret重新创建整个实验需要100多行代码。PyCaret还允许你执行更高级的操作，例如高级预处理、集成、广义叠加和其他技术，这些技术允许你完全定制ML管道，这是所有数据科学家必须具备的。

PyCaret是一个开源的、底层的、使用Python的ML库，它允许你在几分钟内从准备数据到部署模型。因为在编程上花费的时间要少得多，它允许科学家和数据分析员高效地执行迭代数据科学实验，并允许他们更快地得出结论。这个库非常类似于Caret de R，但是它是用python实现的。

在数据科学项目中，理解数据通常需要很长时间(EDA和特征工程)。那么如果我们能把花在项目建模部分的时间减少一半呢？让我们看看怎么做。

首先我们需要先决条件：

Python 3.6或更高版本
PyCaret 2.0或更高版本

在这里你可以找到库的文件和其他：https://pycaret.org/ 。

首先，请运行以下命令：!pip3 install pycaret。

对于google colab用户：如果你在google colab中运行此笔记本，请在笔记本顶部运行以下代码以显示交互式图像。

frompycaret.utilsimportenable_colabenable_colab()

Pycaret模块

Pycaret根据我们要执行的任务进行划分，并且有不同的模块，这些模块代表每种类型的学习(有监督的或无监督的)。在本教程中，我们将使用二分类算法研究监督学习模块。

分类模块

PyCaret分类模块(pycaret.classification)是一个有监督的机器学习模块，用于根据各种技术和算法将元素分类为二类。分类问题的一些常见用途包括预测客户违约(是或否)、客户放弃(客户将离开或留下)、遇到的疾病(阳性或阴性)等等。

PyCaret分类模块可用于二或多类分类问题。它有18个以上的算法和14个分析模型性能的曲线图。无论是超参数调整、加密还是诸如堆叠之类的高级技术，PyCaret的分类模块都有。

在本教程中，我们将使用一个UCI数据集，称为默认信用卡客户数据集。此资料集包含2005年4月至2005年9月中国台湾信用卡客户的拖欠付款、人口统计资料、信用资料、付款记录及帐单结算单的资料，包含24000个样本和25个特征。

数据集可以在这里找到：https://drive.google.com/file/u/2/d/1bVUAk2Y4bdqKx-2NAPk0b4mIOv078zl6/view?usp=sharing 。

所以，将数据集下载到你的环境中，然后我们将像这样加载它：

[2]：

importpandasaspd

[3]：

df=pd.read_csv('datasets/defaultofcreditcardclients.csv')

df.head()

[4]的输出：

1-获取数据

还有另一种加载方法。实际上，这将是我们在本教程中使用的默认方式。它直接来自PyCaret数据集，是我们管道的第一个方法：

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴