基于聚类算法的任务定价规律研究

(整期优先)网络出版时间:2020-12-14
/ 2

基于聚类算法的任务定价规律研究

王一帆,陈佳垚 ,史园园

华北理工大学, 河北 唐山 063000

摘要:“拍照赚钱”是互联网下的一种自助式服务模式,这种基于移动互联网的自助式劳务众包平台,为企业提供了各种商业检查和信息搜集,相比传统的市场调查方式能大大节约成本,并有效地保证了调查数据真实性,缩短了调查周期,于是APP任务定价的合理性变的很重要,定价与任务不合理的完成任务就少或信息不准确,影响市场调查结果。本文通过对项目任务定价规律的研究,利用Matlab绘制了任务经纬度坐标与定价数据三维拟合图并对城市内会员分布进行聚类分析,得到任务定价规律。

关键词:聚类算法;任务定价


1数据处理

本文对一组已结束项目的任务数据进行分析。为提高数据质量,本文采用拉以达准则进行异常数据的剔除[i],通过Matlab算法对算数平均值和标准偏差的计算从而对数据进行筛选。

筛选结果表示:

表1筛选结果

会员编号

会员位置(GPS)纬度

会员位置(GPS)经度

预定任务限额

预定任务开始时间

信誉值

B0005

33.65205

116.97047

66

6:30:00

20919.0667

B1175

113.131483

23.031824

1

6:36:00

19.9231


表1结果显示附件一数据无异常,附件二中5号和1175号数据异常,5号会员位置相对偏远,因此在问题中的影响较小可以忽略。而1175号会员位置经纬度数据明显有误,因此将剔除附件二中异常的两个数据。


5.1.2基于地图拟合的定性分析


首先,将附件一中提供的已结束的每个任务的经纬度数据导入到表格中,进行相应的数据处理,将不同任务定价分类,通过“地图无忧”网页将得到的任务经纬度数据建立图层,并导入百度地图中,任务的经纬度数据和地图拟合。

其中,绿色圆点代表60-67之间的位置;蓝色星点代表67.5-70之间的位置;红色方点代表70.5-73之间的数据;紫色菱形点代表73.5-75之间的位置;黑色圆点代表80-85之间的位置。

根据该项目各任务在地图上的分布情况,能够清晰直观地观察到各个任务的位置信息,直观的结果显示:

任务价位60-67在城市中心任务数据拟合点密集程度高;

任务大多集中在广东省的广州市、深圳市、东苑市、佛山市四个地区,这些 地点会员分布也比较密集;

紫色菱形点和黑色圆点较稀疏,大体远离城市中心。

为进一步观察每项任务的地理位置及其定价的信息,利用MATALB的曲线拟合工具箱,做出了每项任务经纬度坐标与定价数据的三维拟合图,如图2所示。

5fd6dd9673668_html_5a9eb47675bb6349.gif

图2任务经纬度与定价数据的三维拟合图

黄色区域代表城市郊区,蓝色区域代表市中心,绿色区域代表市中心与市郊区的交接地带。

根据该项目每个任务经纬度与定价数据三维拟合图,可以观察到:


(i)任务的分布越密集,周围的任务数量就越多,区域颜色越深,代表任务定价越低;任务的分布越稀疏,周围的任务数量就越少,区域颜色越浅,代表人物定价越高。

(ii)较少的任务分布在郊区,会员数量相对较少。

(iii)任务与会员交际中的地方定价较低;任务与会员较稀疏的地方定价相对较高。


1.2任务定价规律定量分析

本文定义任务定价5fd6dd9673668_html_d044ac08c5a68e26.gif 是由三部分组成:

5fd6dd9673668_html_34dc108a2b08ba74.gif (1)

其中,5fd6dd9673668_html_8ba4e2416dec2a05.gif 为一已知的固定的定价,取5fd6dd9673668_html_af8acb56a1cfb91b.gif5fd6dd9673668_html_c01069980aff1a7d.gif 为浮动金额,受任务位置以及会员分布影响变化。5fd6dd9673668_html_6cb1dd5f0a1ad499.gif 为不确定性因素影响的价格变化,如天气变化、交通拥堵等,但本题认为此因素影响很小,在此不再赘述。

5fd6dd9673668_html_88d078783f8697d5.gif 为任务困难程度(任务难度)[ii]

5fd6dd9673668_html_ad3e7e24de351de0.gif (2)

其中,5fd6dd9673668_html_1bdd0c74e257cb63.gif 为任务点所处区域5fd6dd9673668_html_575e1ba5a10ded27.gif 的中心点,5fd6dd9673668_html_52cfafbcf1a1ad1f.gif 是离中心点最远的任务点,即5fd6dd9673668_html_f8228ea2b314c229.gif 越大,表示离中心点越远,任务点越偏僻。认为任务点和会员点分布在一个二维空间上,以经纬度作为坐标值5fd6dd9673668_html_cb3c6c36484ccf9a.gif

5fd6dd9673668_html_ae6155751ff3e6bb.gif 为会员密度,5fd6dd9673668_html_ae396f0417cc5505.gif 为任务密度。5fd6dd9673668_html_2ecdb55b229a883e.gif 为任务点2km圆域内其他任务点数量,5fd6dd9673668_html_4ce6b0cb2e12fa6b.gif5fd6dd9673668_html_471060eff4dc30cc.gif 的最大值,5fd6dd9673668_html_9ba7f909eb339fab.gif 的提出是对会员密度的矫正,考虑到一个任务点的圆域内有很多其他任务点,使会员密度相对下降。忽略5fd6dd9673668_html_4a19611ecff26dd0.gif 得到任务的定价公式

5fd6dd9673668_html_b4be8087c9361632.gif (5)

其中,5fd6dd9673668_html_274a586b26d78548.gif 代表任务偏僻程度的系数,预期为正值,5fd6dd9673668_html_c4a31dd1f025482f.gif 表示会员密度的系数,预期为负值,5fd6dd9673668_html_97afbaea47f129f9.gif 表示任务密度的系数,预期为正值。

从上式可以看出,任务定价由固定底价和浮动价格组成,最终的定价主要是受任务难度、会员密度和任务密度所影响。[3]

对该模型的求解。首先将附件一中的坐标5fd6dd9673668_html_540dcfe482ec86af.gif 代入求出5fd6dd9673668_html_7e40aee0118fbe8b.gif ,并利用Matlab统计出每个任务点2

km圆域内的会员数量和任务数量,求出5fd6dd9673668_html_961677d54b13f0c8.gif

通过已知每个任务点的定价5fd6dd9673668_html_c9decc77fd61bbca.gif 以及5fd6dd9673668_html_69e69a20c34912cd.gif ,用最小二乘法拟合得出5fd6dd9673668_html_b5732f8f36364f44.gif ,即拟合出任务定价为:

5fd6dd9673668_html_bcf8a4c271e56b1d.gif (6)

1.3结果分析

由上易看出,任务定价随任务难度及任务密度的变大而增高,而任务定价随会员密度的变大而降低,且任务难度对任务定价的影响最大。

综上所述,任务未完成的原因主要受任务难度的影响,而任务难度主要是通过偏僻程度来体现,即会员位置与任务位置之间的距离。任务未完成的主要原因是任务定价较低,任务点与会员所在位置较远,导致会员积极性下降,任务未完成率上升。

参考文献

[] 覃运梅, 石琴. 出租车合乘模式的探讨[J]. 合肥工业大学学报:自然科学版, 2006, 29(1):77-79.

[] 王俊杰.“拍照赚钱”任务定价方案分析设计[J].中国战略新兴产业,2017(36):179.

[] 师蕾.中国众包平台用户参与行为影响[D].重庆:重庆大学.2012.

[] 徐晨.论移动商务在企业信息化中的应用[J] .情报科学, 2006, 24(1):144 -147.







i

ii