智能财务风险预警方法—随机森林|样本|算法|财务

前言：随着我国资本市场的快速发展，许多企业正面临着大量的有形和无形的风险。资本市场上的竞争日益激烈，公司生存风险也日益增大。因此若能通过预测风险的方式，发现公司有不同寻常的异动，即可提早预防公司财务风险的发生并做好相应的措施，以期有效控制风险。目前现有的财务预警模型大多利用逻辑回归、SVM支持向量机模型以及上篇推文中介绍的BP神经网络模型，利用组合分类技术建立的智能财务风险预警模型还不多，本文介绍随机森林在智能财务风险预警中的应用。

“大数据与人工智能环境下的智能财务风险预警方法”系列推文三：

智能财务风险预警方法—随机森林

一、随机森林原理介绍

随机森林是一种组合分类技术。2001 年被Breiman首次提出, 随机森林是由很多CART决策树分类模型组成的模型，是一种全新的借助机器工作的学习模型。在我们构建智能财务风险预警模型时，会涉及各种各样的财务指标以及非财务指标，由于指标个数太多，就无法避免一些指标之间会存在相关关系，会增加统计分析方法的复杂度，信息会产生重叠。在这样的情况下就需要对输入的多维向量进行降维。使用随机森林方法原理对财务数据进行降维，其优势在于随机森林适合处理维数较大的数据。随机森林是一种集成学习方法，是通过排列组合分类树所得到的，由多棵决策树集成。

决策树是根据策略进行抉择的、呈树形结构的预测模型，代表特征空间与类空间上的条件概率分布的一种基本的分类与回归方法。决策树通常由两部分组成：节点和有向边，其节点包括树顶的根节点、表示特征的树中间的内节点和表示类的树边缘的叶节点三种类型，根据样本在某个属性上的不同取值将其划分成若干个子集。

随机森林是采取组合许多分类器且在不明显扩增运算量的方法增大预测的精度，我们通常得到的最终结果大多是通过这种方法得到。当原始样本集较大时，原始样本集中约有63.2%的样本会出现在 Bootstrap 样本集中，而其余的36.8%的样本没有出现在 Bootstrap 样本集中，这部分样本被称为袋外（out-of-bag，OOB）样本，利用这部分样本进行模型性能的估计称为 OOB估计。袋外样本没有进入基预测器，因此可以利用其进行误差估计，得到的误差称为袋外误差，综合各基预测器的 OOB 误差可得到组合模型的 OOB 误差，即是对模型泛化能力的估计。OOB可用于估计随机森林的强度和相关度，这有助于理解模型的预测精度，从而提高模型性能。OOB在随机森林中的另一个用途是度量变量的重要性。

从另一角度看，随机森林可以说是对Bagging算法的改进，改进主要体现在：每棵CART决策树均不进行剪枝，而是任其充分生长；以及每棵CART决策树在充分生长的过程中，并不是在所有输入变量中选择最优变量进行分支，而是从随机选择的个变量中选择最优变量进行分支，即随机变量选择。正是由于以上差异，随机森林算法能得到更优于Bagging算法的预测精度。在随机森林的构建过程中，关键的一点在于基学习器即决策树模型的多样性。如果直接使用样本训练多个决策树很难产生多样化的模型。因此随机森林的构建首先需要从两个方面对样本进行抽样：对样本的抽样和对属性的抽样，即对于每一棵决策树均采用部分样本的部分属性进行训练。对于样本的抽样可以使决策树不需要直接对于大量的样本进行分析，而只需要关注少量的样本，并挖掘它们的潜在模式。而对于属性的抽样则是降低决策树学习的难度，使得每一个决策树都是基于部分属性做出决策，达到一个“少而精”的效果。这样，将决策人的角色与分类器作对比，组合学习的方法就包含着多个由Bagging集成学习技术训练得到的决策者相当于多个决策者共同进行一项决策，这种方式所含有的平衡误差的方法，能够配平分类总体不平衡数据集的误差，可以很好地处理成千上万个输入属性。这样，训练出的决策树是它所处的“领域”的专家，最终让这些模型投票决定最终的分类结果，精准识别财务风险。

二、随机森林算法

随机森林算法通过抽样从原始数据中生成训练集。利用Bagging算法从原始数据集中抽取N个样本。每个样本都会生产一个决策树，且生成的决策树不需要做剪枝处理，从而建立起由N棵决策树形成的森林，算法如下：

输入：(1)训练集

(2)待测样本

①对原始训练集S进行Bootstrap抽样，生成训练集St

②使用St生成一颗不剪枝的树hi：

a. 从d个特征中随机选取个特征Mtyy

b. 在每个节点上从每个Mtyy特征依据Gini指标选取最优特征

c. 分裂直到树生长到最大

End

输出:(1)树的集合

(2)对待测样本xt决策树hi输出hi(xt)

回归：

分类：

注释：算法中，用majorityvote表示多数投票．随机森林的泛化误差依赖于以下两个因素：任意两棵树的相关度和单棵树的分类效能。

三、随机森林方法的优点

相对于一般算法，随机森林最大的优点就是可以很好的应对高维度的数据集，对数据的适应性很好；其次由于其对缺失值和异常值不敏感具有很好的抗噪声能力，可以得到变量重要性排序，容易做成并行化的模式；在练习的时候，可以检验出样本中属性间的关系，对多元共线性没有敏感性；以及可以扩展到无标签数据中，进行无监督分类、和奇异点检测等多种。具体有以下几点：

1 相对于其他算法，随机森林具有极高的预测精度，且不易过拟合；

2 能处理海量数据，对高维数据，无需进行变量删减或筛选；

3 模型内部产生的OOB估计具有无偏性；

④ 对噪声不敏感，具有较好的容噪能力；

⑤ 输入变量既可以是数值型，也可以是类别型；

⑥ 能有效处理不平衡分类问题；

⑦ 能计算样本间的相似度，产生相似度矩阵，可以用于聚类、异常样本诊断、缺失值填补以及数据可视化；

⑧ 能计算变量的重要性，且能给出偏相关函数对模型进行解释。

四、随机森林应用于智能财务风险预警

建立基于随机森林分类模型的智能财务风险预警模型，各种分类模型都只对类别较对称的数据具有很好的识别功能，可以选取上市公司的数据作为样本，财务报表涵盖了许多样本，并且对于每一个样本都有许多属性，这些属性均为构建的二级财务指标。用于智能财务风险预警研究的样本变量很多，若把它们全都纳入到预警模型中会使得模型繁杂和信息重合，显然将它们全都用于构建预警模型是不合理的，而且有可能影响模型效果，如果基于这些数据直接训练决策树则会导致决策树的结构异常复杂，难以达到较好的分类效果以及泛化性能。所以在建立预警模型之前，通过对指标实施改进的随机森林分析，筛选出含信息量较高且相关性较低的指标。构建随机森林的一个关键问题是选择特征个数使其达到最优。若减小特征个数，树的相关性和分类能力就会相应降低；反之若增大，两者则会随之增大。所以，关键问题是如何选择最优的特征个数及范围，这是随机森林中最重要的参数。财务指标的选取原则决定了研究所用的数据，而数据是构建模型的基础。在智能财务风险预警模型的研究中，根据研究方向、侧重点不同而所选用的财务指标也不尽相同。选取了用于财务风险预警的变量之后，需要对数据进行降维，筛选出信息量较高且相关性较低的指标。随机森林模型对财务指标赋权有两种方法，一种是常用的Gini系数法，另一种是预测精度法。

在选取样本时，要选择具有代表性以及要考虑数据的可获得性，如上市公司按照相关法律要求会按时对外公布相对真实、连续的财务数据，而非上市公司的财务数据则难以获得。因不同行业具有各自的行业特征，因而其陷入财务困境的概率也不尽相同，应选择同一行业的上市公司作为样本。企业陷入财务困境是一个渐进的过程，因此需要关注公司陷入困境的前三年财务数据也非常重要。通过选择总资产收益率、资产报酬率、流动比率、净利润增长率、总资产周转率、流动资产中互转利率、资产负债率等指标作为模型输入变量，公司类型作为分类变量，以此建立一定数量的决策树，构成训练数据集和测试数据集。根据测试数据集准确率，正常公司错分率以及面临财务风险的公司错分率判断随机森林模型的准确性。

我们采用随机森林算法即可同时训练很多的决策树，每一个决策树只需要分析部分样本，并基于部分属性做出决策。这样可以加强决策树对于这些指标的判别能力，而不要求面面俱到。最终通过投票法将所有决策树的分析结果进行汇总，得到一个最终的稳健的分类结果。

经邦大数据致力于数字赋能用户，实现风险可控下的运营价值最大化。目前已经在集团企业决策支持平台、AI分析建模平台、移动应用平台和大数据集成平台上取得丰硕成果，司企共建一批全国样板客户案例，获得业界良好口碑。基本企业全面风险管控体系的基础内控系统建设梳理与咨询指导、核心风控系统的开发建设与实施落地、评价优化系统的监督评价与优化改进等服务，最终实现企业风控目标与战略目标的统一。