本教程涵盖了整个ML过程,从数据获取、预处理、模型训练、超参数拟合、预测和存储模型以备将来使用。
我们将在不到10个命令中完成所有步骤,这些命令是自然构造的,并且非常直观易记,例如:
create_model(),tune_model(),compare_models()plot_model()evaluate_model()predict_model()
让我们看看全局:
![](http://dingyue.ws.126.net/2023/0524/691f3c59j00rv54d4005ic000oi00f1m.jpg)
在大多数库中,不使用PyCaret重新创建整个实验需要100多行代码。PyCaret还允许你执行更高级的操作,例如高级预处理、集成、广义叠加和其他技术,这些技术允许你完全定制ML管道,这是所有数据科学家必须具备的。
PyCaret是一个开源的、底层的、使用Python的ML库,它允许你在几分钟内从准备数据到部署模型。因为在编程上花费的时间要少得多,它允许科学家和数据分析员高效地执行迭代数据科学实验,并允许他们更快地得出结论。这个库非常类似于Caret de R,但是它是用python实现的。
在数据科学项目中,理解数据通常需要很长时间(EDA和特征工程)。那么如果我们能把花在项目建模部分的时间减少一半呢?让我们看看怎么做。
首先我们需要先决条件:
- Python 3.6或更高版本
- PyCaret 2.0或更高版本
在这里你可以找到库的文件和其他:https://pycaret.org/ 。
首先,请运行以下命令:!pip3 install pycaret。
对于google colab用户:如果你在google colab中运行此笔记本,请在笔记本顶部运行以下代码以显示交互式图像。
frompycaret.utilsimportenable_colabenable_colab()
Pycaret模块
Pycaret根据我们要执行的任务进行划分,并且有不同的模块,这些模块代表每种类型的学习(有监督的或无监督的)。在本教程中,我们将使用二分类算法研究监督学习模块。
分类模块
PyCaret分类模块(pycaret.classification)是一个有监督的机器学习模块,用于根据各种技术和算法将元素分类为二类。分类问题的一些常见用途包括预测客户违约(是或否)、客户放弃(客户将离开或留下)、遇到的疾病(阳性或阴性)等等。
PyCaret分类模块可用于二或多类分类问题。它有18个以上的算法和14个分析模型性能的曲线图。无论是超参数调整、加密还是诸如堆叠之类的高级技术,PyCaret的分类模块都有。
![](http://dingyue.ws.126.net/2023/0524/5d6d3fd8j00rv54d4002oc000ed00dbm.jpg)
在本教程中,我们将使用一个UCI数据集,称为默认信用卡客户数据集。此资料集包含2005年4月至2005年9月中国台湾信用卡客户的拖欠付款、人口统计资料、信用资料、付款记录及帐单结算单的资料,包含24000个样本和25个特征。
数据集可以在这里找到:https://drive.google.com/file/u/2/d/1bVUAk2Y4bdqKx-2NAPk0b4mIOv078zl6/view?usp=sharing 。
所以,将数据集下载到你的环境中,然后我们将像这样加载它:
[2]:
importpandasaspd
[3]:
df=pd.read_csv('datasets/defaultofcreditcardclients.csv')
df.head()
[4]的输出:
![](http://dingyue.ws.126.net/2023/0524/2465d020j00rv54d4002dc000pt0073m.jpg)
1-获取数据
还有另一种加载方法。实际上,这将是我们在本教程中使用的默认方式。它直接来自PyCaret数据集,是我们管道的第一个方法:
![](http://dingyue.ws.126.net/2023/0524/4406ad44j00rv54d40037c000g0009em.jpg)
热门跟贴