文 / 金电信息科技(北京)有限责任公司杨大伟

打开网易新闻 查看精彩图片

征信评分是金融领域中的关键工具,它利用历史数据和统计方法,为贷款机构提供了有效的工具,以预测借款人的信用风险。征信评分模型的构建与应用是征信评分的核心问题,它涉及数据采集、数据清洗、数据挖掘等大数据技术方法,以及评分指标体系、评分方法和评分标准等评分技术要素。随着大数据时代的到来,征信评分模型面临着新的机遇和挑战,如何利用大数据技术方法来提高征信评分模型的性能和效果,是本文研究的主要目的。

不同类型的征信评分模型的

不同类型的征信评分模型的

特点和适用范围

特点和适用范围

征信评分模型从整体层面分析,其可以分为以下四种。

申请评分模型(A卡):申请评分模型的关键任务就是在贷款申请的初步阶段,通过分析借款人的个人信息、信用历史和财务状况等数据,来评估其是否符合贷款要求。

反欺诈模型:反欺诈模型专注于贷前阶段,通过分析借款人的身份信息、行为特征和关系网络等数据,旨在识别潜在的欺诈行为。

风险定价模型:风险定价模型利用借款人的信用评分、收入水平、还款能力等信息,确定适当的贷款利率。

收益评分模型:在贷中阶段,收益评分模型基于借款人的消费行为、还款习惯和客户价值等数据,评估借款人对授信机构的收益贡献。这个模型的目的是优化客户管理,通过识别高价值客户并提供个性化服务,提升客户忠诚度,并在长期内实现更高的盈利。

征信评分模型的构建

征信评分模型的构建

1.构建应用的大数据技术方法

(1)数据采集。数据采集是征信评分模型构建的第一步,它涉及从多个数据源获取相关的数据,以便进行后续的数据清洗和挖掘。数据采集的目的是获取尽可能多的、有价值的、可信的和完整的数据,以提高模型的准确性和有效性。

为了验证不同的数据采集方法对征信评分模型的影响,研究进行了实证数据分析。研究选取了三个不同类型的贷款机构作为样本,分别是商业银行(A)、互联网金融平台(B)和小额贷款公司(C)。研究比较了它们使用不同数据采集方法后,所得到的征信评分模型的准确率和稳健性,得到了如下结果(见表1)。

表1 采集准确率与稳健性一览

打开网易新闻 查看精彩图片

从表1可以看出,不同数据采集方法对征信评分模型的准确率和稳健性有显著影响。总体而言,混合采集方法的模型表现最好,主动采集方法的模型表现最差,被动采集方法的模型表现居中。

(2)数据清洗。数据清洗是征信评分模型构建的第二步,研究选取了第一节中同样三个不同类型的贷款机构作为样本,并按照以下方式进行了分组。

缺失值处理组:只使用缺失值处理方法对数据进行清洗,分别采用删除法、均值法和插值法。

异常值处理组:只使用异常值处理方法对数据进行清洗,分别采用识别法、替换法和修正法。

重复值处理组:只使用重复值处理方法对数据进行清洗,分别采用去重法、合并法和转换法。

综合处理组:使用所有数据清洗方法对数据进行清洗,分别采用删除法、替换法和去重法。

研究使用了第一节中同样的评分方法和指标来构建和评估征信评分模型。研究得到了如下结果(见表2)。

表2 清洗准确率与稳健性一览

打开网易新闻 查看精彩图片

从表2可以看出,不同数据清洗方法对征信评分模型的准确率和稳健性有显著影响。总体而言,综合处理方法的模型表现最好,缺失值处理方法的模型表现最差,异常值处理方法和重复值处理方法的模型表现居中。

(3)数据挖掘。数据挖掘是征信评分模型构建的重要步骤,它涉及从数据中提取有用的信息和知识,以支持决策和预测。例如,假设研究想要构建一个征信评分模型,用于预测借款人的信用风险,可按照以下步骤进行。

数据采集:研究可以从多个数据源获取相关的数据,如征信机构、银行、电商平台、社交网络等,以获取借款人的个人信息、信用历史、消费行为、社会关系等数据。

数据清洗:研究需要对数据进行初步处理,删除或填补缺失值,检测和剔除异常值,整合和处理不一致或冗余的数据。

数据挖掘:研究可以利用数据挖掘的方法,从数据中提取有用的信息和知识,以支持决策和预测。

2.大数据征信评分模型构建

(1)评分指标体系。研究根据借款人的信用特征,将评分指标划分为以下四类。

个人信息:个人信息是指借款人的基本信息,如年龄、性别、婚姻状况、教育程度、职业、收入等。

信用历史:信用历史是指借款人过去的信用行为和信用记录,如贷款次数、贷款金额、还款情况、逾期次数、逾期天数等。

消费行为:消费行为是指借款人在各种平台上的消费活动和消费偏好,如购物频率、购物金额、购物品类、支付方式等。

社会关系:社会关系是指借款人在社交网络上的社会联系和社会影响力,如好友数量、互动频率、点赞数、评论数等。

综上所述,研究根据以上四类评分指标,构建了一个综合反映借款人信用风险的评分指标体系(见表3)。

表3 评分指标体系

打开网易新闻 查看精彩图片

(2)评分方法。基于以上原则,研究根据借款人的信用特征和数据特点,将评分方法划分为以下四类。

线性模型:线性模型是指建立数据之间的线性函数关系,以描述变量之间的依赖性和影响程度。

树形模型:树形模型是指利用树状结构来划分数据集和预测结果,以实现非线性映射和分类。

神经网络:神经网络是指模拟人脑神经元结构和功能的数学模型,以实现非线性映射和学习能力。

集成学习:集成学习是指利用多个基础学习器来组合出一个更强大的学习器,以提高预测精度和稳健性。

综合分析,研究根据以上四类评分方法,选择了适合本文研究目标和数据特点的评分方法(见表4)。

表4 评分方法一览

打开网易新闻 查看精彩图片

(3)评分标准。研究根据借款人的信用特征和数据特点,将评分标准划分为以下四类。

绝对标准:绝对标准是指根据固定的评分区间,将借款人划分为不同的信用等级。

相对标准:相对标准是指根据动态的评分区间,将借款人划分为不同的信用等级。

综合标准:综合标准是指结合绝对标准和相对标准,将借款人划分为不同的信用等级。

定制化标准:定制化标准是指根据不同贷款机构或不同贷款产品的特定需求,将借款人划分为不同的信用等级。

综上所述,研究根据以上四类评分标准,选择了适合本文研究目标和数据特点的评分标准(见表5)。

表5 评分标准

打开网易新闻 查看精彩图片

3.模型有效性与稳健性验证

(1)敏感性分析。敏感性分析是指检验征信评分模型的参数或变量对模型结果的影响程度。本研究采用了以下方法进行敏感性分析。

参数敏感性分析:通过改变逻辑回归模型中的截距和回归系数,观察模型的准确率和稳健性的变化。结果表明,模型对截距的敏感性较低,对回归系数的敏感性较高。因此,需要对回归系数进行合理的估计和选择,以提高模型的性能。

变量敏感性分析:结果表明,模型对自变量的个数有一定的最优值,过多或过少的自变量都会降低模型的准确率和稳健性。因此,需要对自变量进行有效的筛选和组合,以提高模型的效率和简洁性。

(2)回归分析。为了进行回归分析,本研究采用了以下步骤。

选择因变量和自变量:本研究根据评分指标体系,选择了几类数据指标作为自变量,如个人信息、财务状况、信用历史、消费行为、还款习惯和社会关系。

建立回归方程:本研究使用逻辑回归作为回归方法,因为逻辑回归适用于二元分类问题,即借款人是否违约。逻辑回归的一般形式如公式所示:

打开网易新闻 查看精彩图片

其中,p是借款人违约的概率,xi是第i个自变量,βi是第i个自变量对应的回归系数。

估计回归参数:本研究使用最大似然估计法来估计回归参数,即寻找一组参数值,使得模型预测的概率与实际观察到的概率最为接近。

检验回归模型:本研究使用了两种检验方法。一种是拟合优度检验,拟合优度检验是指评价模型对数据的拟合程度,即模型预测的结果与实际观察到的结果之间的差异有多大。本研究使用了准确率和AUC作为拟合优度检验的指标,Wald检验作为参数显著性检验的方法。Wald检验的一般形式如公式所示:

打开网易新闻 查看精彩图片

其中,

打开网易新闻 查看精彩图片

是回归系数的估计值,β0是假设的值,

打开网易新闻 查看精彩图片

是回归系数的标准误差。Wald检验的原假设是β≠β0,备择假设是β=β0。如果Wald统计量的绝对值大于临界值,或者对应的值小于显著性水平,则拒绝原假设,认为回归系数显著不等于假设的值。

另一种是模型显著性检验,本研究使用了LR(Likelihood Ratio)检验作为模型显著性检验的方法。LR检验是一种基于似然比的方法,用于比较两个嵌套模型的拟合程度。LR检验的一般形式如公式所示:

打开网易新闻 查看精彩图片

其中,L0是空模型的似然函数值,L1是完整模型的似然函数值。LR检验的原假设是两个模型没有差异,备择假设是完整模型比空模型更好。如果LR统计量大于临界值,或者对应的p值小于显著性水平,则拒绝原假设,认为完整模型比空模型更能够解释因变量的变化。

评价回归结果:通过以上步骤,本研究整理了回归分析的结果(见表6),可以看出,除了社会关系外,其他数据指标的回归系数都显著不为零,说明它们对借款人违约概率有显著的影响。其中,信用历史和还款习惯的回归系数绝对值最大,说明它们是最重要的数据指标。

表6 回归分析结果

打开网易新闻 查看精彩图片

(3)模拟实验。为了进一步验证研究构建的大数据征信评分模型的有效性和稳健性,研究进行了模拟实验。模拟实验的步骤如下。

生成模拟数据:研究使用蒙特卡罗方法生成了10000个借款人的模拟数据,结果发现模拟数据的分布和特征与真实数据相一致。

构建模拟模型:使用研究提出的大数据征信评分模型,以及传统的征信评分模型(如FICO、Z-Score等),分别对模拟数据进行评分。

分析模拟结果:研究发现,研究构建的大数据征信评分模型在准确率、稳健性、区分度等方面,都优于传统的征信评分模型,说明研究构建的大数据征信评分模型具有较高的有效性和稳健性,能够更好地反映借款人的信用风险。

征信评分模型的应用

征信评分模型的应用

1.典型场景应用

(1)商业银行。在大数据环境下,商业银行可以利用多种数据来源和方法来构建更精准和更稳健的征信评分模型。例如,商业银行可以结合主动采集和被动采集的数据,包括借款人的基本信息、财务状况、信用历史、消费行为、社会关系等,来获取更全面和更可靠的数据。

(2)金融机构。为了验证大数据征信评分模型在金融机构的应用效果,本文选择了三家不同类型的金融机构作为案例,分别是保险公司(D)、证券公司(E)和基金公司(F),主要结论如下:一是本模型在准确率和稳健性方面都优于传统征信评分模型,说明本模型能够更有效地预测客户的风险水平,并能够适应市场变化。二是本模型的性能受到数据来源、数据类型、数据维度等因素的影响,这些因素需要在数据采集和处理过程中加以选择和优化。

2.本模型对不同类型客户的评分处理

本文构建的大数据征信评分模型,不仅可以适用于不同类型的贷款机构,也可以适用于不同类型的借款人。根据借款人的信用特征和风险偏好,本文将其分为以下四类。

优质客户:本模型对这类客户给予较高的评分,并推荐贷款机构提供较低的利率、较高的额度和较长的期限等优惠条件,以吸引和留住这类客户。

潜力客户:本模型对这类客户给予中等的评分,并推荐贷款机构提供适中的利率、适中的额度和适中的期限等合理条件,以培养和提升这类客户。

风险客户:本模型对这类客户给予较低的评分,并推荐贷款机构提供较高的利率、较低的额度和较短的期限等严格条件,以控制和降低这类客户。

拒绝客户:本模型对这类客户给予极低或零分,并推荐贷款机构拒绝或限制向这类客户发放贷款,以避免和减少这类客户。

3.本模型与传统征信评分模型的对比

(1)优劣分析。本文构建的大数据征信评分模型,与传统的征信评分模型相比,具有以下优劣。

在优点方面,本模型数据量大、数据类型多、数据覆盖广。本模型利用了主动采集和被动采集的方法,获取了借款人的个人信息、信用历史、财务状况、消费行为、社会关系等多方面的数据,从而提高了模型的信息量和代表性。

在缺点方面,本模型数据安全性低、数据隐私性差、数据一致性弱。本模型使用了被动采集的方法,获取了借款人的敏感数据,如消费行为、社会关系等,这可能会导致数据泄露或滥用的风险,同时也可能会引起借款人的反感或抵制。

(2)影响因素。本文构建的大数据征信评分模型,与传统的征信评分模型相比,受到以下几个方面的影响。

数据质量:数据质量是指数据的准确性、完整性、一致性、时效性和可用性等特征。数据质量越高,模型的性能越好。

模型复杂度:模型复杂度是指模型的结构、参数和运算的复杂程度。模型复杂度越高,模型的预测能力越强,但也可能导致模型的过拟合、不稳定或不可解释等问题。

4.模型实用性与推广价值分析

本文构建的大数据征信评分模型具有较高的实用性,主要表现在以下几个方面:模型可以适应不同类型的贷款机构,如商业银行、互联网金融平台和小额贷款公司等,可以根据不同贷款机构的特点和需求,灵活地调整和优化模型。在推广价值方面,模型可以促进金融普惠发展,通过使用大数据技术,扩大数据覆盖范围和数据获取渠道,使更多没有传统信用记录或信用记录不完善的人群能够获得信用评估和信用服务,从而提高金融服务的可及性和公平性。

结语

结语

综上所述,本文构建的大数据征信评分模型,在实用性和推广价值方面都具有较高的水平,可以为贷款机构和社会带来实际的收益和效益。本文构建的模型也有一些不足之处,需要在数据安全性、数据隐私性、模型可解释性等方面进行进一步的完善和优化,以提高模型的可信度和可操作性。

参考文献

[1] 张博文,杨斯尧.算法型评分工具:优势、风险与法律规制[J].西南金融,2022(09):33-44.

[2] 庞德良,李思卓.另类数据征信对信贷公平的影响及展望[J].税务与经济,2022(04):57-64.

(此文刊发于《金融电子化》2024年5月上半月刊)