特征编码是把原始数据转换成计算机能够处理的数字格式的过程,这对于机器学习模型的分析和建立是非常重要的。由于机器学习算法主要依赖于矩阵运算,因此必须把非数字型特征转换成数字型特征。对于分类数据,常见的编码技术包括标签编码、目标编码和独热编码等,这些技术能够有效地把分类属性转换成模型可以识别的数字表示形式。
这次,我们将利用析易科研数据分析平台提供的编码工具,向大家展示几种主要的编码方法(标签编码、目标编码和独热编码)。
1、标签编码
功能说明:将一个文本的分类变量为数字标签,如:北京、上海、天津、重庆。变为1、2、3、4。编码随机赋值,数字只有标签意义,不存在大小意义。此方法会fit后生成一个模型,用户可下载后,使用python语言调用。
操作样例:对数据中婚姻情况一列进行标签编码。
2、目标编码
功能说明:选择字段,以文本方式填写要替换的数值数组。
操作样例:参考婚姻情况的编码,对性别一列进行目标编码。
3、自由编码
功能说明:对字段进行任意编码,以“原值:替换值;原值:替换值;”的格式写入。
操作样例:对婚姻情况进行自由编码,已婚=4;未婚=5;离异=6
热门跟贴