聚类算法在电力大客户行为分析中的实施

(整期优先)网络出版时间:2021-07-22
/ 3

聚类算法在电力大客户行为分析中的实施

1 刘茹、 2 卓俊宇、 2 李杏丽、 2 魏其珺

1 国网甘肃省电力公司兰州供电公司 730000

2国网思极飞天兰州云数科技有限公司 730000

摘要:计算机和互联网的普及,使得电力部门累积了大量的数据信息,这些数据信息记录着供电企业的运行状况以及客户信息,利用大数据和云计算可以做到聚类算法,实现对大客户用电行为的分析,有利于更好地为大客户提供个性化电力服务需求,使供电企业在竞争激烈的市场环境中立于不败之地。

关键词:聚类算法;电力大客户;行为分析

引言:大客户虽然只占供电企业总数的20%,但却能够给供电企业带来80%的经济收入,因此做好对大客户行为分析,采用聚类算法,可以实现对大客户用电行为的深入分析和挖掘,有利于提取大客户用电的核心关键数据,从而使供电企业可以为大客户提供行之有效的供电方法,对推动电力企业发展有着长远的意义。

1.聚类分析概述

聚类分析属于统计学的一个分支,由于聚类分析在不同领域有着不同的地位,所以聚类分析造就了数据挖掘技术的兴起[1]。聚类分析是通过物理或者抽象的数据对比方法,可以很好地反应数据之间的相似度,因此在聚类分析中可以将数据分出不同的小组进行对比分析。

2.聚类算法在电力大客户行为分析中的应用

2.1从需求上进行分析

对于电力企业而言,电作为电力企业的产品,因为具有其特殊性,所以通常很难做到像其他商品一样存储,所以电力资源属于“即发即用”的状态。因此电力企业如何提高电力资源的利用率,并将发电量应用到各行各业,使电力资源给电力企业带来最大的回报率,是电力企业需要重点分析研究的方向。用电大客户对电力企业而言具有十分重要的意义战略意义,可以给电力企业带来最大的经济效益,因此大力发展大客户,同时给大客户提供更好的个性化电力服务措施,是当今电力企业发展的主要方向和目标[2]。如果电力企业在发展过程缺乏对用电大客户行为的分析,同时没有站在客户感知角度分析,很难符合最优的市场策略,从而会导致客户按照最本质的特殊性聚集成客户群,根据客户特征对大客户设计营销方案,可以更好地满足大客户的满意度,这也是聚类算法完成大客户细分复杂任务的有效技术手段。

2.2对大客户的数据探索

在对电力大客户的数据探索中,主要探索的方向有两个方面,分别是价值客户以及重要客户。电力重要客户最基本的要求是确保电力稳定性,但重要客户对电力企业的经济贡献度比较小,所以电力企业的重点关注对象是价值客户。通常情况下,价值客户主要包含第一、第二、第三产业,由于价值客户中存在很大的差异,必须要进一步细分客户,才能更好地实施精细化管理营销。在对价值客户的界定中,我们将价值客户分为四类,分别是非居民客户、供电电压高于10KV、装接容量高于500KVA、年用电量高于40万kW这四种价值客户。

2.3对大客户行为数据抽取和预测

2.3.1对大客户行为数据的抽取

在对大客户数据的抽取中,需要大量的数据源,才能实现对数据的准确分析,所以根据系统的功能需求,采集客户的基本信息和客户用电缴费信息作为相关数据源,采集客户信息的数据主要包括以下两点[3]。首先是掌握客户的基本信息,对客户的区域、行业了解,其次是对客户缴费信息了解,了解客户每月的用电量、电费缴纳数据等信息。而在对客户数据抽取时,需要从做到以下几点,第一,在抽取客户数据信息时需要满足客户细分主体模型的追求,第二,收取的数据要具有足够的代表性,第三,在不影响业务系统性能的情况下,需要充分考虑到业务量和数量以及性能等要求,才能更好地避免对业务的影响。

2.3.2对大客户数据的预测

在对大客户数据预测处理流程如下:初始数据的获取→数据清理→数据集成和融合→数据交换→数据规约→知识评价等数据挖掘→挖掘结果。我们选取河北某电力公司2020年1月到2020年12月这个时间段的数据,采取抽样方法进行分层抽样,并选择三个供电公司作为抽取对象,抽取的样本总数为40万户。在对所选数据进行清洗时,可以做到消除噪音数据的情况,而数据清洗是一个非常复杂的过程,涉及到多个方面。因此在数据清洗阶段,需要采用统计学方面的技术检测数据中的异常值,可以确保数据的参照完整性和数据的精准性,使数据质量得到提高。将数据清洗后,有效保留的数据有19.3万条,同时经过大客户的甄别分析,选取价值客户作为研究对象,可以发现客户总数有5000户,占总用户的2.5%。

2.4数据建模和聚类结果

在数据建模时,采用DGk-mean算法,可以对数据对象进行初始化的操作,并利用K-means算法建立比较稳固的模型[4]。在对同一组数据进行对比时候,采用和DGk-mean方法K-means随机聚类方法可以得到不同的聚类中心对比,最终的对比结果是DGk-mean算法所获得聚类中心要比K-means随机聚类中心更加精准,如表一所示。但是使用DGk-mean算法进行初始化处理后,再使用K-means的方法进行聚类,就可以得到最后的聚类模型数据,如表二所示。

表一:聚类中心点比较

cluster-id

K-means随机聚类中心

DGk-mean算法聚类中心

1

1.071

0.072

2

0.000

0.142

3

1.278

0.068

4

0.000

0.114

5

0.848

0.020

6

0.000

0.039

average value

0.533

0.076

表二:聚类后所得结果

cluster-id

客户数量

百分比

总电量

百分比

平均电量

1

639

14

4658164872

11.7%

7289772.883

2

2658

49

10016329744

25.2%

3768370.859

3

150

4

10356879713

26.1%

69045864.75

4

304

6

2946483135

7.4%

9692378.734

5

489

10

4035647917

10.2%

8252858.726

6

760

17

7735264911

19.5%

10177980.15

total

5000

100

39748770292

100%

108227226

为了更好地分析,方便以客户作为特征给各个簇的名称,对cluster-id进行命名,“1”代表中电量高负载客户群,“2”代表低电量高电价客户群,“3”代表高电量的成糊状那个客户群,“4”代表低电量高成长客户群,“5”代表高成长高信用客户群,“6”代表中电量低信用客户群,从而可以得到图一、图二、图三。

图一:大客户数量分布图

60f913e05b5f1_html_2c7dee4eb1cb9385.png














图二:大客户总电量分布图

60f913e05b5f1_html_e2d008663989d96.png












图三:大客户平均用电分布图

60f913e05b5f1_html_cfc777dd33d36465.png











从图一、图二、图三中可以看出,中电量高负载客户,低电量高电价客户以及高电量低成长客户是用电消费最高的客户,因此供电公司就需要根据客户的需求为客户提供不同的服务,可以确保用电大客户数量的稳定增长。

结束语:聚类算法在电力大客户的行为分析过程中,由于能够对大客户的数据信息进行深入分析,所以聚类算法在市场中具有非常大的潜力,同时在聚类算法中采用K-means和DGk-mean这两种不同的算法,能够实现对大客户数据模型的建立,使大客户数据可以变得更加细致,有利于给供电企业高层提供有效的管理决策依据。





参考文献:

[1]周春燕. 一种基于ISODATA聚类算法在车辆出行行为分析中的应用[J]. 通讯世界, 2019, v.26;No.350(07):115-117.

[2]周冰钰, 刘博, 王丹,等. 基于自组织中心K-means 算法的用户互动用电行为聚类分析[J]. 电力建设, 2019, 040(001):68-76.

[3]高莉, 彭清清, 余杰,等. 基于客户用电行为的数据挖掘算法研究[J]. 电力系统装备, 2020(1):130-131.

[4]李飞, 王鸿玺, 谭阿峰,等. 考虑用电行为分析的电力用户用电预测研究[J]. 电子测量技术, 2020, v.43;No.333(01):79-84.