基于变量IV值的变量选择?

By 陆勤 at 2019-03-08 • 0人收藏 • 465人看过

变量IV值的变量选择可以看做变量选择里面的过滤法。


一 变量IV值的计算

第一步:对变量做分箱处理,并且计算每个箱子的WOE值。

以信用评分卡为例,目标变量y,取值为1表示坏,取值为0时表示好。

某个变量的分箱i的WOE计算公式


WOE值计算.png

含义:WOE值是分箱i的坏客户分布与好客户分布的比值的对数(一种定义形式),可以调整为分箱i的坏好比与总体样本的坏好比的比值的对数。其衡量了分箱i对整体坏好比的影响程度。


第二步:计算变量的IV值

IV值计算公式


IV值计算公式.png

IV值是衡量一个二元变量y和一个名义变量x之间的关联性指标。

一个变量的IV值等于该变量分箱下的各个信息值的累加


二 变量IV值做变量选择经验法则


根据信息值预测力的关系,一种基于经验法则的变量选择。


IV变量经验法则筛选或者过滤变量.png

在实际应用中,对于IV值很弱,比方说IV<0.02,可以删除;对于强变量,IV大于0.3,或者0.5,需要以一种怀疑的态度对待和处理。


参考资料:

1 信用评分卡模型

2 信用评分卡开发过程

登录后方可回帖

信息栏
数据人网是数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值
Loading...