打开网易新闻 查看精彩图片

有人曾将建模形象地比作"蒸馏咖啡"的过程:咖啡豆是"10K/10Q/SEC Fillings";研磨工具为Excel表格等软件或语言;浓萃精华为最终的Thesis,即投资观点。

因此,一杯好喝的"金融咖啡",不仅需要优良的咖啡豆,还需要给力的研磨工具,方能得到一份精致的浓萃精华,来做出这样一杯满意的咖啡。

那么,在金融场景中,我们在解决诸如风控、营销、反欺诈、定价、投资决策等问题时,都会用到哪些建模工具呢?接下来两期小象将重点来讲解下“特征衍生”以及“多层次分析”两种建模工具。

本期的重点为“特征衍生”。

//

特征衍生

//

在实际业务中,通常我们只拥有少量基础变量,不适合直接建模,如用户地址(多属性值的分类变量)、用户日消费金额(弱数值变量)等。而基础变量经过适当的变换或组合后,往往能够拥有较强的信息价值,对实际建模工作起到很大的帮助作用,所以建模项目中需要对基础特征做一些衍生类的工作。

特征衍生又叫特征构建,是指从原始数据中构建新特征,也属于特征选择的一种手段。特征构建工作并不完全依赖于技术,它要求我们具备相关领域丰富的知识或者实践经验,基于业务观察和分析原始数据,思考问题的潜在形式和数据结构,从原始数据中提取一些具有实际意义的特征。

从场景来看,特征衍生适用于使用机器学习方法构建模型的所有金融场景,比如风控、营销、反欺诈、定价、投资决策等。

打开网易新闻 查看精彩图片

//

如何实现?

//

确定可供拓展的基础特征后,可使用如下几种方式衍生特征:

  • 特征扩展
  • 特征组合
  • 合成特征
  • 自动衍生

特征拓展

特征拓展是基于一个特征,使用特征值打平的方式衍生出多个标注类型的特征,也可以理解为离散化。对于分类变量,直接one-hot编码;对于数值型特征,先进行变量分箱,然后使用one-hot编码。比如,表1为信贷场景下逾期天数的离散化结果。

表1 -信贷场景逾期天数

打开网易新闻 查看精彩图片

采用特征拓展进行特征离散化有如下好处:

① 可以有效处理特征中的缺失值和异常值;

② 数据和模型会更稳定,降低模型过拟合的风险,提高模型的泛化能力;

③ 分箱后变量可以使用标准评分卡格式,即对不同的分段进行评分;

④ 标注特征方便后续进行特征交叉组合;

特征组合

特征组合是指将两个或多个输入特征通过数学运算进行组合。一般可分为如下两种情况:

(1)数值运算:对多个特征进行加,减,乘,除的四则运算。

(2)特征交叉:

  • 对多个特征进行交叉组合,或做交,并,补,笛卡尔集等运算。
  • 暴力交叉,即采用多项式特征交叉等方法,暴力交叉容易出现稀疏问题,
  • 可通过FM、FFM等算法处理稀疏特征;

在建模过程中,扩展线性模型时辅以特征组合一直都是训练大规模数据集的有效方法,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。

合成特征

合成特征是通过将单独的特征进行组合形成的合成特征。这是一种让线性模型学习到非线性特征的方式,其包括以下类型:

(1) 对连续特征进行分桶,划分为多个区间的分箱。

(2) 通过一些跨时间维度的计算逻辑对特征进行时间维度的比较,从而衍生出具有业务含义的特定字段。这种做法会具有更强的解释性,是传统的银行或者信用卡中心惯用的衍生方法之一。

(注:合成特征与组合特征关系在于:特征组合广义上包含合成特征,合成特征则改变了特征的线性关系,属于无中生有。)

自动衍生

自动衍生包括一些自动化衍生工具和深度衍生方法,可以缩减时间成本,构建维度更广更全面的新生特征。

(1) 自动化衍生:使用一些自动化衍生工具,诸如Featuretools之类的工具包,通过转换和聚合形成衍生特征。

(2) 通过算法自动进行特征交叉:这类特征大多不可以解释,但是可以将特征挖掘得较为深入和透彻。可以很轻松地从基础的几百个维度衍生至任意维度,比如可以通过XGBoost对特征进行离散,或者通过FM算法进行特征交叉,也可以通过神经网络进行表征学习,然后将内部的参数取出来作为模型的输入(比如使用word2vec算法的权重作为表征特征)。

//

中诚信征信的特征衍生方案

//

结构化数据自动特征生成

打开网易新闻 查看精彩图片

图1 结构化数据自动特征生成

结构化数据自动特征生成是建模时使用最多的方式。如图1所示,首先提取原始数据,经过简单的特征提取,比如时间切片、分箱、取log、数值统计等构造大量特征,然后采用符号回归、onehot编码、自编码器、Embedding等方法进行特征衍生,构造更多特征,将生成的特征送入模型,从而改善模型的效果。

知识图谱关联特征提取

打开网易新闻 查看精彩图片

图2 客户关系网络

利用知识图谱技术可以从借款人关系网络(如图2)中全面、科学的提取特征,进一步提升风控模型的准确率。比如:图3展示的是运营商通话记录反欺诈模型中入模特征重要性的排序结果,其中灰色表示我们人工衍生的特征,橙色为使用通话记录构建的图特征。不难发现图特征在模型训练中起到了重要作用。其中“人脉欺诈得分”在特征重要性中位列第二,这个特征就是基于图的PersonalPR值,其余的重要图特征为基于实际背景的度和聚散系数。

打开网易新闻 查看精彩图片

图3 反欺诈模型的特征重要性

神经网络提取时序数据特征

打开网易新闻 查看精彩图片

图4 RNN模型

我们可以通过神经网络进行表征学习,然后将内部的参数取出来作为模型的输入。如图4所示,首先对数据进行预处理,然后将数据输入到RNN模型中,图中的网络结构是双向RNN+3层全连接层,模型训练完成后,即可从网络中提取时序数据特征。