电费回收风险预测的大数据方法应用叶露

(整期优先)网络出版时间:2019-10-25
/ 2

电费回收风险预测的大数据方法应用叶露

叶露

广东电网有限责任公司清远清新供电局511800

摘要:随着我国社会经济的不断发展,电力在人们的生产和生活中发挥着越来越重要的作用。售电收入的形成较为复杂,电力用户有不同类别且执行的电价标准不同。本文从低压居民客户基础数据、电费信息、历史缴费记录等方面对用户的历史数据进行统计分析,深度挖掘影响客户电费回收率的关键因素,构建低压用户影响因素指标体系,为制定差异化措施及电费回收管理办法、提高电费回收率提供理论依据。

关键词:电费回收;逻辑回归算法;指标体系

引言

电费回收管理一直是供电企业的工作重点,且是供电企业经营活动中最为重要的环节之一。长期以来,供电企业一直采用先用电后缴费的市场规则,因此存在电费回收周期长及催费措施落后等隐患,使电费回收逐渐成为困扰电力企业的一大问题。为了解决此问题,各电力公司纷纷提出了各种行政管理手段和技术手段,并建立了基于客户风险的电费回收策略,以防范电费回收风险。但是,电网企业对于客户欠费风险的预判能力不足,不能根据客户欠费风险等级提前采取具有针对性的防范措施,是目前防范电费回收风险面临的一大难题。为了有效地提高电力企业的风险防控能力、降低企业经营风险,高效准确的欠费风险预测尤为重要。

1电费回收风险预测的大数据主要方法

1.1最优变量分组方法

变量分组是将分类变量的某些类别合并以降低其基数,或者将数值型变量分段将其转换为分类变量的过程。变量分组的方法是基于决策树模型的分裂找到最优的分组方案,通过合并变量的类别使得预测力指标最大化,即首先以使某预测力指标最大为原则找出最优的二元分割点,然后在每个子类别中重复上一步骤,当达到最大分组个数时停止分割。

1.2WOE证据权重转化方法

将分类变量转化为数值型变量,以降低建模程序的复杂性,同时可以将Logistic回归模型转变为标准评分卡格式,以利于后续模型结果的解释及应用。

1.3逻辑回归方法

逻辑回归是一种研究二分变量Y与一系列影响因素x之间关系的多变量分析方法,是在线性模型基础上的进一步发展。逻辑回归模型的计算速度快,结果显性化且拟合效果好,目前在大数据、机器学习、经济学等领域得到了广泛应用。

1.4评分卡函数方法

基于标准评分卡的算法将逻辑回归模型结果转化为评分卡的形式,用户的最终得分即各变量对应分值的和。

2模型构建与应用

2.1目标客户

结合对业务的理解及现状分析,明确电费回收风险客户的定义。不同的电费回收风险客户定义对应不同的业务表现,也会匹配不同的业务应对策略。本文选取的目标客户为某市区违约金金额大于0的低压居民客户。

2.2建设思路

首先,对数据进行加工和处理,对于相关性较强的指标,保留部分即可,同时创建衍生变量,为建模做好数据准备。其次,对数据进行初步的探索性分析,通过对欠费用户的用电特征分析、用电趋势分析、渠道偏好分析等相关描述性统计进行分析,形成初步建设思路,为选取指标做准备。再次,选取相关指标,建立指标体系。按照逻辑回归模型的入模要求,进行聚类分析、关联分析和主成分分析,目的是在降低入模变量维度的同时获得各个指标权重,并通过变量内部分类和WOE权重转化等方法进行数据转化,以适应模型建模的数据要求。最后,对模型进行训练和检验,通过模型评估进行评价,重复训练获取最佳模型。

2.3数据准备

以2017年1—6月某市区目标客户数据作为基础数据,以2017年7月和8月是否产生违约金作为目标变量,开展模型训练。基础数据主要包括如下几种。基本属性:用户编号、供电单位、抄表段号等。用电数据:用户分类、行业分类、供电电压、合同容量、负荷程度等。用电行为:用电量、电费、违约金金额,欠费次数、计费次数等。缴费行为:缴费方式、缴费变更次数等。

2.4探索性分析

2.4.1欠费用户的综合特征分析

基于决策树算法构建欠费用户的分类模型,掌握欠费用户的综合特征。分类结果示例见表1,其中拥有特征规则一或规则二的用户为高风险用户。

2.4.2欠费用户的行为特征分析

基于构建的欠费用户分类模型,根据IV值输出重要性指标变量如图2所示。通过图2中的变量重要性列表得出以下结论。(1)客户使用的缴费渠道种类数与客户的欠费行为有重要关系。进一步分析该变量对欠费行为产生影响的特征,同时给出欠费用户占比排名前5位的渠道变更情况。用户缴费渠道种类如图3所示,排名前五位的渠道变更情况见表2。从图3可以发现,半年内使用缴费渠道种类数越多,欠费用户比例越高。对变更渠道用户进一步分析发现,在欠费用户占比排名前五位的渠道变更均发生在线上和线下缴费之间,同时这种线上、线下的渠道变更行为展示了客户在现金缴费与网上支付的转换行为,进一步说明了变量重要性中现金缴费次数比例与欠费风险存在重要关系。(2)在变量重要性中缴费次数相关变量与欠费行为的发生存在一定关系。对不同时间段缴费用户数及欠费用户占比进行分析,如图4所示。从图4可以看出,约80%的用户在6—25日间进行缴费,该类用户中欠费用户约占14%。在5日及之前缴费、25日之后缴费的用户约占19.2%,但是发生欠费概率较高。不同时间段缴费的用户欠费用户占比具有明显差异,从集中在月初、月末的特征可以看出该类用户可能存在拖延、卡点和遗忘的情况。

2.5指标体系构建

根据探索性分析结果及数据特征构建模型指标体系。从用户基本信息、用电行为和缴费行为3个维度构建。具体如图5所示。

2.6模型建设

基于R软件运用逻辑回归算法实现欠费风险预测分析模型。对于分类指标,通过IV值筛选预测力高的变量进入模型。对于连续性指标,计算变量间的相关系数矩阵,将相关系数大于0.5的指标结合IV值进行筛选。经过筛选,最终进入模型的指标有21个,具体见表3。

2.6应用场景

依据电费回收风险客户风险等级划分的结果,可在实际业务场景中进行应用,建议可针对抄表员、管理层等不同岗位设计标签及其应用场景。抄表员在电费回收工作各阶段,利用客户风险等级标签筛选客户群体,指导电费回收工作。一是在抄表阶段,针对高风险、中风险客户,尽量做到优先抄表、当面抄表。并根据移动终端的提示,核实用户的联系信息,包括户号、户名、联系电话、通信地址等。二是在派送电量电费通知单工作阶段,针对高风险、中风险客户,应粘贴纸质通知单,并尽可能当面通知客户;针对低风险客户,可以采用发送电子账单的形式通知,包括短信账单、微信账单、邮件账单等。三是在派送催费通知单工作阶段,及时跟进高风险、中风险客户的电费缴纳情况,增加催缴频率和力度。并根据资源情况,采取电话的方式进行催费。对于管理层,可采取按电费风险等级排序,优先开展重点催费措施;或针对高风险用户提高催费短信发送频率,差异化催费内容,对低风险等级用户降低催费短信发送频率等。

结语

本文将逻辑回归模型的运用加以完善,将入模指标加以细化,具有较强的适用性和扩展性,可针对抄表员、管理人员等不同岗位职能设计标签及应用场景。通过实践应用,展现了模型对数据关联的整合能力,可广泛地应用在电力回收预警方案的设计及开发工作中,保障电费回收工作有效进行。

参考文献

[1]张晓峰.电力大客户电费回收风险防范体系的构建[J].内蒙古科技与经济,2013(24):121-123.

[2]裘华东,涂莹,丁麒.基于标签库系统的电力企业客户画像构建与信用评估及电费风险防控应用[J].电信科学,2017,33(1):214-221.

[3]余长江,张海荣.探究电费大数据分析与风险预警[J].电脑知识与技术,2016,11(33):23-23.