基于特征选择改进LR-Bagging算法的电力欠费风险居民客户预测

  作者:吴漾 朱州 时间:2017-03-29来源:电子产品世界

编者按:本文从电力欠费风险预测的角度出发,提出了一种基于特征选择改进的LR-Bagging(即以逻辑回归为基分类器的Bagging集成学习)算法,其精髓在于每一个训练的LR基分类器的记录和字段均通过随机抽样得到。且算法的终止迭代准则由AUC统计量的变化率决定。该改进算法充分考虑了LR的强泛化能力、Bagging的高精确度,以及特征选择带来的LR基分类器的多样性、弱化的多重共线性与“过拟合”度,效果优于单一LR模型。且最终的实验表明,该改进算法得到的电力欠费居民客户风险预测模型的准确性与有效性得到提升。

3 应用与结果

  本应用以“电费回收风险”为主题,要求根据2015年8月至2015年9月贵州贵阳电网欠费居民样本客户的行为分析和特征拟合,以及与全量居民客户的特征匹配,采用分群管理理论和数据挖掘算法建立数学模型,计算出全量居民客户的电费回收风险程度,自动分析识别出欠费高风险居民客户群。

  本部分主要通过改进的LR-Bagging算法与单一逐步逻辑回归算法在电力欠费高风险居民客户的预测的应用效果的比较来展开。借助的分析工具为R语言。

3.1 基于本文改进算法的模型流程图

  针对本应用的实际情况,结合改进算法的数据需求,整体实际操作过程的流程可以表述如图3。

3.2 模型与结果

  综上所述,有如下处理过程:

  3.2.1 定义风险客户样本

  业务经验告诉我们,并非所有的欠费居民客户都是存在欠费风险的客户,因为我们并不排除多数欠费居民客户因为忘记缴费日期而出现欠费的可能性。一般情况下,存在欠费风险的居民客户占全量客户的比例不超过25%。因此,考虑通过所有欠费居民客户在2015年8月至9月的累计欠费金额的四分之三分位点作为定义欠费风险居民客户的标准。

  图4为全部居民客户在2015年8月至9月累计欠费金额的概率直方图,可以发现,大约75%的居民客户的累计欠费金额在140元以下。经过与电网专家的商讨,认为可选定该数据为是否为欠费风险客户的阈值。

  综上所述,我们定义“坏客户”样本,即欠费风险客户样本的标准为:在2015年8月至9月期内,累计欠费金额超过140元的居民客户。

  3.2.2 变量的构造与筛选

  原始居民客户数据包含包括年龄、用电性质、合同容量等基本属性以及总用电量、电费实际金额等历史行为属性在内的25个字段,显然,变量个数过多,需要进行筛选,具体操作为:

  对于连续型变量,计算其与因变量“是否为坏客户”的spearman相关系数,大于0.5的情况下保留;对于离散型变量,对其与因变量做卡方检验,保留在0.05显著性水平下的显著变量,最终确定的用于建模的变量为:平均用电量、平均电费、平均缴费时长、信誉分数、用电类别、行业代码、合同容量、城乡标志,对应地设置为X1~X8

  同时,考虑到离散变量对于逻辑回归的效果影响,基于目标变量对WEO其做编码处理。WEO叫做证据权重(Weight of Evidence),表示的其实是自变量取某个值的时候对欠费比例的一种影响。若WEOi表示离散变量的第i个类值的证据权重,则有:

(8)

  其中,PbiPgi分别表示离散变量取第i个类值时,欠费风险客户占比和非欠费风险客户的占比。

  最后,随机抽取已完成前述处理的居民客户样本的10%,共条记录作为构建模型的初始数据 。

3.3 建模

  3.3.1 本文改进算法模型

  基于特征选择改进的LR-Bagging组合模型虽然增加了分类结果的精度,但特征选择的随机性也不可避免的增加了模型的偶然性。显然,每一次特征变量个数发生改变。在其他条件不变的状态下,随着循环次数的增加,至于特征变量的个数对模型结果的影响规律,我们甚至无法预知。对此,本处采用了实证比较的方法来初步确定上述两影响因素的最优数值,即通过不断改变特征变量探究模型效果的变化。模型的效果的好坏仍采用采用AUC值来衡量。即令特征变量个数k满足:,同时,基于经验,我们设置训练集与测试集的样本比例为7:3,ε的值为0.05,则利用本文算法可以得到不同的组合模型。

  观察图5不难发现,在其他条件不变的情况下,随着特征变量个数的增加,AUC总体呈现先增长后下降的的变化趋势,且当k取值为4时,AUC最大,因此大致可以认为4为其最佳特征个数,选取 时的组合模型为本文改进算法得到的最终模型。

  3.3.2 单一逐步逻辑回归模型

  对初始数据S通过逐步筛选建立逻辑回归模型,结果为:

  各系数均通过了0.05显著性水平下的公式(6)的正态分布检验。因此,该模型是显著有效的。

4 模型评估

  分别采用本文基于特征选择改进的LR-Bagging算法的组合模型与单一LR模型对全量居民客户的风险概率预测,并借助预测结果对两者的准确性与有效性做出评估。

4.1 准确性—ROC曲线

  图6表明,基于本文算法模型的预测电力欠费风险客户的ROC曲线一直位于单一LR模型预测结果的ROC曲线上方,因此,可以认为,前者的准确性优于后者。

4.2 有效性—提升度

  提升度(Lift)是评估一个预测模型是否有效的一个度量。这个比值由运用和不运用这个模型所得来的结果计算而来。一般来说提升度越大,效果明显。

  图7表明,基于本文算法模型的预测电力欠费风险客户的提升度曲线一直位于单一LR模型预测结果的提升度曲线上方,因此,可以认为,前者的提升度较大,有效性优于后者。

5 结论

  本文从电力欠费风险预测的角度出发,提出了一种基于特征选择改进的LR-Bagging(即以逻辑回归为基分类器的Bagging集成学习)算法,其精髓在于每一个训练的LR基分类器的记录和字段均通过随机抽样得到。且算法的终止迭代准则由AUC统计量的变化率决定。该改进算法充分考虑了LR的强泛化能力、bagging的高精确度以及特征选择带来的LR基分类器的多样性、弱化的多重共线性与“过拟合”度,效果优于单一LR模型。且最终的实验表明,该改进算法得到的电力欠费居民客户风险预测模型的准确定性与有效性得到提升。而下一步,可针对改进算法中最优变量个数的确定问题展开探讨,或考虑将其推广至其他应用领域。

  参考文献:

  [1]顾曦华.济南供电公司电力大客户欠费风险预警研究[D].保定:华北电力大学,2007.

  [2]田慧欣,王安娜.基于增量学习思想的改进AdaBoost建模方法[J].控制与决策,2012,27(9):1433-1436.

  [3]李亚林,王茜.对电力营销中全过程电费风险管理的探究[J].电力技术,2016,1(148):165-165.

  [4]张宇献,李松,董晓.基于特征聚类数据划分的多神经网络模型[J].信息与控制,2013,42(6):693-699.

  [5]朱志华.电力客户信用评价与欠费风险预警系统的总体设计[J].现代计算机(专业版).2009(01):188-190.

  [6]周晖等.基于Logistic回归模型的电力客户欠费违约概率的预测[J]. 电网技术,2007,31(17):85-88.

  [7]黄文思.基于决策树算法的电力客户欠费风险预测[J].电力信息与通信技术,2016,14(3):20-22.

  [8]马新宇.基于Bagging集成学习的水华预测方法研究[J].计算机应用化学,2014,31(2):140-144.

  [9]Ma Ranran. Research of Ensemble Learning Algorithm. Shandong:Shandong Univerity of Science and Technology,2010.

  [10]朱绍文,胡宏银,王泉德,等.决策树采掘技术及发展趋势[J].计算机工程,2000,26(10):1-3.

  [11]李海波,柴天佑,岳恒.浮选工艺指标KPCA-ELM软测量模型及应用[J].化工学报,2012,63(9):2892-2898.

  [12]马冉冉.集成学习算法研究[D].济南:山东科技大学,2010.

  [13]施彦.物流中心选址的神经网络集成模型研究[J].计算机工程,2009,45(16):211-214.

  [14]刘淑莲,王真,赵建卫.基于因子分析的上市公司信用评级应用研究[J].财经问题研究,2008,15(7):53-60.

  [15]张克盡,陆开宏,朱津永,等.基于神经网络的藻类水华预测模型研究[J].中国环境监测,2012,28(3):53-57.


  本文来源于威廉希尔 官网app 2017年第4期第70页,欢迎您写论文时引用,并注明出处。

1 2

关键词: LR分类器 Bagging集成学习 特征选择 AUC 201704

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版