银行贷款发放信用评价问题数学模型
摘要
本文针对商业银行在发放贷款的过程中,如何利用一定的判别准则对申请贷款企业信用度进行打分的问题,建立相应的数学模型,给出判别准则。
首先,对商业银行现有的600个申请贷款企业背景资料及打分情况的数据进行预处理。巧妙地构建字符型取值数值化公式,合理的将离散型变量(取值均为字符型)取值数值化,以及利用spss软件对15个自变量和1个因变量做相关性分析,筛选出12个属性变量。此外,通过回归分析对数据进行深挖掘,利用MATLAB软件对背景资料数据作时序残差图,考察分析时序残差图发现有64个奇异点,在Logistic回归模型中将对应的64个样本点予以剔除。
然后,对预处理所得的背景资料数据,建立Logistic回归模型,利用spss统计软件对模型求解,得到各属性的权重系数。以谋求判别结果与原始结果吻合度最大为原则,给出了判别准则。
随后,鉴于背景资料信息不全的情况,本文利用 算子的思想,构建“缺省信息均值 ”,同时定义相应的“缺省信息运算法则”,对Logistic回归模型进行修正。利用C++软件编程,重新求得修正后的各属性权重系数。本文特从600个申请贷款企业随机抽取75个样本,随机丢失若干属性信息,同样以谋求判别结果与原始结果吻合度最大为原则,给出修正后的判别准则。
接下来,通过C++编程,利用给出的判别准则对剔除64个问题样本点后的536个企业重新打分,结果与原始打分相比,吻合度达到98.5%。对被剔除的64个企业单独重新打分,发现与原始结果完全相反,实际是对问题样本点进行了纠正,打分准确度达到100%。同样使用判别准则求得前53个待申请企业打分值。分析修正判别准则对随机抽取75个样本打分结果,发现对不发放贷款的企业的原始打分与重新打分完全相同,实现了风险最小化原则,再使用修正判别准则求得后37个待申请企业打分值。
最后,我们就模型存在的不足之处提出了改进方案,并对优缺点进行了分析,根据数据分析结果,为银行高层管理者写一份报告,使判别准则得以被采用。
关键字 信用评价 Logistic回归模型 判别准则 缺省信息运算法则
一、问题的提出
商业银行计划给有需求的企业发放贷款时,为了有效地减少金融风险,要求每个申请贷款企业提供企业经营状况的相关资料,并根据这些资料,对这些企业进行打分,以确定是否为其提供贷款。
考虑以某银行现有600个申请贷款企业的背景资料及打分情况,为保护商业秘密,资料中的属性(变量)已换成没有任何意义的代码。如
b,30.83,0,u,g,w,v,1.25,t,t,01,f,g,00202,0,+
a,38.58,5,u,g,cc,v,13.5,t,f,0,t,g,00980,0,-
资料中共有15个属性(用逗号隔开,分别记为A1——A15)和一个打分情况, 要求给出一种判别准则,并对这600个企业重新打分,使打分与原打分尽可能相吻合。
现有90个待申请贷款企业,企业背景资料与前600个申请贷款企业有相同的形式,现应用所给出的判别准则对这90个申请贷款企业中的前53名进行打分,以确定是否为其提供贷款。
由于企业自身的原因(如漏填或有意不填),有些项的指标没有填写(没有填写的项在表中为?),针对这种情况,修正判别准则,然后对90个申请贷款企业中的后37名行打分,以确定是否为其提供贷款。
最后,为银行的高层管理者写一份报告,阐述判别方法的正确性或合理性,使其被采用。
二、问题的分析
本题背景资料中属性变量的类型有两种:连续型和离散型,且离散型变量的取值均为字符型,无法用函数关系来刻画属性和因变量之间的关系。因此,它们无法直接为数学模型所用。此外,资料中的离散型变量已换成没有任何意义的代码,无法观察各属性变量间的关系以及对判别结果的影响。同时考虑各个申请贷款企业经营状况的相关资料是由各个企业向银行提供的,其属性变量的取值必然存在人为误差。基于上述三个原因,本文必须对已知数据进行预处理。鉴于90个待申请贷款企业中的后37名的背景资料不齐全,我们必须对判别准则进行修正,最后通过修正判别准则进行打分。我们需要解决下列关键分析:
1. 数据的处理。包括离散变量取值数值化,利用相关性分析对属性变量进行筛选以及通过回归分析背景资料进行筛选。
2. 建立适当的模型,提高判别结果的精确度。
3. 必须通过对已知数据的深挖掘,找出修正判别准则的方法。
我们将整个问题分为如下两个问题,建立模型求解问题一,然后通过对判别准则的修正,对模型进行改进以求解问题二:
问题一 通过对企业背景资料中600组数据的分析,给出判别准则,并对这600个企业重新打分,使打分与原打分尽可能相吻合。应用判别准则对90个待申请贷款企业中的前53名进行打分,以确定是否为其提供贷款。
问题二 修正判别准则,对90个待申请贷款企业中的后37名进行打分,以确定是否为其提供贷款。
三、模型假设和符号系统
3.1 模型假设
1. 所有属性变量都为无序列属性变量
2. 不考虑属性变量和数值变量在模型中的交叉作用
3. 不考虑模型对变量的多次回归相关性
4. 数据经转换后保留了原始数据的某些统计特征,即问题的可预测性
5. 给出的变量符号没有任何的意义
6. 假设打分结果只与 这15个属性有关,预其余的属性无关
7. 所有的申请者都可以分成两类,即打分为“+”与“-”两类
3.2 符号系统
:表示任意一字符
:申请贷款企业的打分情况,分为 与 两类
:第 个申请贷款企业的打分值(1或0)
:第 个属性变量
:两变量之间的相关性系数
:第 个申请贷款企业的信用值
:第 个申请贷款企业的违约概率
:第 个属性的权值系数
:第 个属性的缺省信息均值。
:申请贷款企业的总数,本文取600
:第 个申请贷款企业的第 个属性值
:第 个未知属性值表示符号
第 个待申请贷款企业第 个属性的值
第 个待申请贷款企业的违约概率
第 个待申请贷款企业的信用值
:则表明申请贷款企业信用度不好,不发放贷款。
:则表明申请贷款企业信用度好,可以发放贷款。808
[1] [2] [3] [4] [5] [6] [7] 下一页