电子商务用户数据挖掘研究

(整期优先)网络出版时间:2019-05-15
/ 2

电子商务用户数据挖掘研究

张琬青

汉口学院计算机科学与技术学院2015级电子商务专业学号2015914058

摘要:随着互联网经济产业发展规模的突飞猛进,电子商务呈现着迅猛爆炸式发展态势。伴随而来的就是电子商务用户数据的暴增,显然这些由用户创造的数据远超出了当前人力处理的范围。因此,研究了将模糊聚类算法应用于电子商务用户数据的挖掘处理中,通过遗传算法改进的模糊C均值聚类,就可以处理我们庞大的电子商务用户数据,挖掘电子商务这块的核心资源的商业价值,从而实现精准营销,提升我们的营销价值。

关键词:模糊聚类;遗传算法;电子商务;数据挖掘

引言:互联网经济时代背景下,伴随着社交网络和移动端互联网的快速发展,电子商务的用户数据规模呈现几何式发展链路,维度也不断增加。这些数据的类型十分复杂,除了用户的基本信息数据,还包含电子商务平台的数据、用户使用移动终端信息等非结构化的过程性数据[1]。商业价值最大限度的挖局使用,取决于对用户数据的挖掘和分析的方式。因此,找到一种行之有效的数据挖掘技术对电子商务用户数据提升处理速度和高效十分必要。

1互联网经济下电子商务用户数据特点

相比较于传统经济的数据,互联网经济下电子商务用户数据体量极大,每日产生的数据规模已达到TB级,并且对时效性有着极高的要求。这些数据都是高速、实时的数据流,蕴含着巨大的商业价值[2]。可以看出,电子商务用户数据具有大数据的特征。如何高效处理这些用户数据,从中挖掘出有价值的信息,从而实现精准营销,成为了当前亟待解决的问题。

2模糊聚类算法相关研究

聚类算法是一种自然进行、无需人工监督的学习过程,在这个过程中,不需要任何先验知识作为指导,仅通过数据的内在特点就可以对其进行聚类和分析。作为一种重要的数据挖掘技术,聚类算法已被广泛应用到了许多领域,如文本分析、图像处理等[3]。在电子商务用户数据的处理分析中,也可以用到模糊聚类。其中,模糊C均值算法FCM(FuzzyC-Means)的应用特别广泛。FCM算法是指通过引入隶属度的概念,查找各个样本的数据对象依据隶属度值的大小决定其是否从属于某一个分类。简单来说,它是一种在模糊理论基础上的柔性划分。先将向量Xi(i=1,2,…,n)分成c组V={V1,V2,V3,…,Vc},然后求出每组的聚类中心A={A1,A2,A3,…,Ac},对于其中每一个向量Xi都有一个[0,1]之间的值,用于表示其从属于某一个聚类中心的程度。为得到模糊聚类的最优解,要使目标函数在约束条件控制的前提下得到最小值。因此,整个聚类算法过程步骤如下:第一步:初始条件下,随机生成c个聚类中心A={A1,A2,A3,…,Ac};第二步:计算全部样本数据的隶属度矩阵,并且使这个矩阵总能保证满足和恒等于1的约束条件;第三步:计算目标函数值,当其大小与设定阈值相比,小于阈值则算法结束;第四步,最后更新聚类中心A,并且迭代整个算法(返回第二步)。

3遗传算法改进的模糊聚类

目前,针对FCM算法的研究和应用有许多,但是该算法存在较为明显的缺陷。因此,利用遗传算法GA的全局搜索,优化FCM算法的随机初始聚类中心选取问题。作为一种群体搜索智能算法,GA算法通过一定的规则逐步迭代,最终选取全局最优解。以该最优解作为模糊聚类算法的初始聚类中心,可以较好地改善FCM聚类。在整个算法中,可以用t表示迭代演化的代数,那么群体P(t)经过一定规则的搜索后,就会产生下一代群体P(t+1),然后不断迭代,直到最终找到最优解。如果在搜索过程中,群体陷入了局部极值,那么迭代操作就会因此停滞,算法的最终结果也陷入局部的最优解,这种现象称为早熟,它会导致当前搜索的群体中很难涵盖到全局最优解。这个问题产生的最大原因,在于搜索过程中,进化到下一代的个体选择速度过快,即对子代的筛选速度过快,与产生新个体的速度不相匹配,导致个体多样性受到破坏,最优解无法涵盖到下一代种群。在传统算法中,是通过交叉和变异操作产生新的个体。可以通过增加交叉和变异操作的概率来达到加快新个体产生速度的目的。同时为了保证个体的多样性,也保证群体的稳定性,引入了反向学习机制,改善遗传算法的这个缺陷。也就是说,在搜索过程的子代选择上,不仅搜索当前种群P(t)的个体,还搜索当前种群P(t)的反向种群P(t)'个体,从二者的集合中挑选出较优解作为下一代解集P(t+1)。遗传算法中的其他设置如下。编码方法采用的是二进制编码,对原始种群中的个体进行编码,每条染色体都是由二进制字符串组成,根据它的位置基因取值是0还是1,进而判断这个位置上的个体是否被选中(0表示未选中,1表示选中)。对需要求解问题的方案好坏做评判,通常是使用适应度函数,计算适应度的值,对最优解的种群个体一一计算,判断是否可取。这个适应度函数通常是使用与聚类算法相同的目标函数。但是,这种设置使得每次都要耗费大量时间去计算隶属度矩阵,每次循环时都要对其进行更新,导致整个算法运行的效率降低。因此,采用了一个新的适应度函数解决时间效率问题。同时,为保证优秀个体不被选择操作破坏,在选择环节采用了随机遍历抽样的方法,它对子代进行选择的操作与轮盘赌的方法很像,但它的优点是只需进行一次轮盘旋转,整个过程较为快捷。使用该种遗传算法改进模糊聚类FCM算法,可以得到很好的数据处理效果。同时也更能适应电子商务用户数据的特点,在数据预处理清洗数据杂质、冗余、数据的挖掘以及分析方面表现优异。

4改进模糊聚类的电子商务用户数据挖掘流程

由于电子商务用户数据的高维度、快流转速度、大体量等特点,普通人工数据分析已无法满足需求。因此,将模糊聚类算法这种数据挖掘技术引入对电子商务用户数据的处理分析中,以获得其中潜在的有价值的信息[5]。大致流程如下。第一,数据收集。根据用户的交易情况、互动情况对数据进行简单分类,然后收集用户产生的各种数据。第二,数据预处理。用户数据中存在着很多冗余和噪声数据,影响了整个数据挖掘分析的结果。因此,数据预处理的好坏,很大程度上决定了数据挖掘的结果。在预处理中,通过结构化和半结构化的方法对其进行过滤整理,目标是提升用户数据的相关度,找出其潜在的共同性特征。第三,数据挖掘。通过遗传算法改进的FCM聚类对已预处理过的数据进行聚类分析,根据电子商务用户数据的共同特点将数据进行柔性分类,简单将其划分为不同隶属度的几个大类。第四,数据应用。通过聚类分析得到的隶属度分类,可以应用在用户的购买预测方面。其对用户共同特性的聚类如用户属性、购买力分析等,可以将用户群体进行划分,从而实现精准营销。

5结语

聚类分析作为一种重要的数据挖掘技术,应用于电子商务用户数据的分析中,可以对海量数据进行抽取、分类等处理,从而挖掘出关键性信息帮助商家进行精准决策,使电子商务更加顺利的开展进行,从而实现更多的经济效益。

参考文献

[1]芦海燕.数据挖掘技术在电子商务中的应用探究[J].电子测试,2014(s1):73-75.

[2]李霏.Web数据挖掘技术在电子商务中的应用价值探析[J].电子技术与软件工程,2016(2):198

[3]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004:11.

[4]张永库,尹灵雪,孙劲光.基于改进的遗传算法的模糊聚类算法[J].智能系统学报,2015,10(4):627-635.

作者简介:张婉青,云南昆明,汉族,出生于1996年11月,现就读于汉口学院计算机科学与技术学院2015级电子商务