基于主成分分析法对Airbnb民宿价格预测的应用研究

(整期优先)网络出版时间:2024-03-08
/ 2

基于主成分分析法对Airbnb民宿价格预测的应用研究

刘春晓

西南交通大学希望学院  四川成都  610400

摘要:大数据时代的到来,使得人们获取信息的能力增强,对于房屋住宿的条件选择方面尤其便利。旅游、出差可供选择的住宿也不再单单局限于酒店,各类民宿因其价格、氛围等原因也是大多数人的倾向。互联网将各种房屋信息整合,资源利用率得到大大提升的同时,民宿的筛选条件也越来越多样,民宿的房屋面积、评分、地理位置等都是影响其价格的因素。因此,本文基于主成分分析法,以Airbnb爱彼迎短租平台为例,分析影响民宿价格的主要因素,并为民宿房东提供设施改善建议,以帮助房东设定更有竞争力的民宿价格,同时为我国民宿的条件设置及未来发展提供参考。

关键字:民宿主成分分析价格预测

一、课题背景及意义

随着世界经济的发展,交通出行也越来越方便,民宿行业在近年开始了迅速发展。虽然受全球新冠肺炎疫情的影响,2020年初旅游行业瞬间进入冰冻期,对民宿产业影响巨大[1]。然而由于疫情防控常态化,国内旅游市场展现出新机。2020年上半年国内旅游人数11.68亿人次,数据显示各省区市客源倾向于周边游,随走随订演变成一种出行方式,自驾游加上一个环境优美的民宿成为主流选择。民宿作为本地及周边游的重要方式,已经显现出其优势,尤其是民宿中的旅游民宿。具有能够欣赏自然景观、呼吸新鲜空气、安静休闲度假等特点的民宿将成为疫情常态化下人们心所向往的出游选择[2]

在民宿网络订餐平台中,爱彼迎是一家服务型网站,为用户提供多样的住宿信息,联系旅行人士和自由租房的屋主。由于爱彼迎选择的多样化,及对世界各地的覆盖率较高,因此本文选择以爱彼迎为例,选取美国得克萨斯州奥斯汀地区的数据,分析影响该地区民宿价格的主要因素,并为该地区民宿房东提供设施改善的建议,以帮助房东设定更有竞争力的民宿价格,同时为我国民宿的条件设置及未来发展提供参考。

二、数据处理

1数据收集

本文从爱彼迎网站收集美国得克萨斯州奥斯汀的详细房源数据,并下载数据文件,将其命名为listings.csv。

2数据清理

接下来处理空白值和乱码数据,即使用EXCEL来简单地处理数据集:对于变量房屋位置,我们删除空白值和乱码数据;对于变量评分,我们将空白值替换为平均值。

之后,虽然房东ID等变量中仍有一些空白值,但它们对数据的分析没有影响,因此也将它们保存在数据集中,并将其重命名为listings_2.csv。

三、主成分分析

1模型构建

主成分分析法的基本思路,是利用各指数变量间存在着的某种程度的关联,并采用线性组合的方法在这些指标中获取信息,在一个组合中无法获得更多信号时,才考虑第二个线性组合[3],继续这项研究,直至获得的数据和原目标相当时为止。

通过主成分分析法,可以把多种影响民宿价格的要素精确地归纳成几个关键的指标,从而更准确地反映民宿价格的整体状态,而不需要进行复杂的分析。

2数据分析

本文用R做主成分分析。

首先,使用read.csv()函数来加载数据,然后使用str()函数加载数据,可以得知,该数据集有7584个观测值和75列,变量有数字类和文本类。

本文从数据集中提取数值变量,并删除不相关的变量,如房东ID和因变量价格。然后,使用scale()函数应用规范化,并应用ggcorrplot()来获得更好的可视化效果。

相关矩阵的结果解释如下:

值越高,两个变量之间的正相关性就越强;值越接近-1,它们的负相关性就越强。

现在,所有变量都可用于主成分分析:使用printcomp()函数计算PCA。

结果显示生成了35个主成分,每个主成分都解释了数据集中总方差的百分比。在累积比例部分,第一主成分解释了总方差的34.04%。第二个解释了21.72%的总方差。主成分1到5的累积比率解释了总方差的近82.8%。这意味着前五个主成分可以准确地表示数据。

接下来,通过每个主成分的负载来探索它们与每个变量的关系。

然后,使用fviz_eig()函数生成碎石图来可视化主成分。

图表, 直方图  描述已自动生成

图1:主成分碎石图

该图以向下的曲线显示特征值,从最高到最低。前五个主成分可以被认为是最重要的,因为它们包含了近82.8%的总数据信息。

通过使用双标绘图,展示可视化样本之间的相似性和差异,并进一步显示每个变量对每个主成分的影响。

从结果中可以观察到三条主要信息:所有组合变量都是正相关的;变量与原点之间的距离越大,变量的表示就越好;负相关变量显示在双图原点的两侧。

第三个可视化目标是确定给定组件中每个变量的表示形式。这种质量表示称为cos2,使用fviz_Cos2函数计算。其低值意味着变量不能完全由主成分表示,高值意味着变量能由主成分较好地表示。

从结果中可以得出,评分、最少租日和预定天数是cos2最高的前三个变量,因此对主成分1到5的贡献最大。

最后两种可视化方法,双标绘图和属性重要性,可以结合起来创建一个新的双标绘图,其中具有相似cos2分数的变量将具有相似的颜色。这是通过微调fviz_pca_var函数来实现的。

从下面的双标签图像中:高cos2属性以绿色表示;中等cos2属性以橙色表示;低cos2属性以黑色表示。

图形用户界面  描述已自动生成

图2:变量的双标绘图

由于一些变量表示相似的数据,我们只选择具有最重要属性的变量。因此我们最终选择的变量是:评分、平均最少租日、房东拥有房源数、未来可预定天数。

数据集中还有一些分类变量,这些变量可能会对数据分析产生影响:房源、房屋许可证、房型、即时预定。

四、结论及建议

1、分析建议

首先,民宿可以增加浴室数。浴室与价格呈正相关。维护良好和最新的浴室可以帮助提高租金。

其次,鼓励客人在入住后给予更好的评分。好评与价格呈正相关。因此民宿可以提供卓越的客户服务,提供更好的便利设施,如洗衣、宠物喂养等。

最后,提供更多客房和设施的使用权。房间类型,如私人和公共,地理位置与价格呈负关系。因此,民宿可以提供更多例如私人浴室、公共区域通道、额外存储空间和提供餐食等设备设施和服务。

综上所述,民宿的价格更多取决于民宿的服务,即服务态度、服务设施、与服务的及时性。从数据收集的情况来看,更多的客人希望得到好的情绪价值和及时的反馈,因此民宿房东可以从服务设施、好评内容、和沟通对话等方面提升顾客的满意度,由此获得更高的房屋订购率,以及更长的房屋居住时间,以获得更高的收益。

2、模型缺点

本文的模型构建也有不足之处,在数据报告中也可以结合以下内容一起分析,也为之后的研究提供更加完善的思路。

首先,模型遗漏变量偏误。没有考虑外部因素的影响,例如经济和政府法规的变化。缺乏时间变量,例如季节性和节假日也会对价格产生影响。

其次,样本选择偏差。只有一天的数据无法预测长期的趋势或价格随时间的变化。

最后,模型本身的限制。随着时间的推移,数据的缺乏限制了模型在分析中的使用。例如时间序列分析可以估计趋势、季节模式,面板数据分析可以估计时间和单位对价格的影响和相互作用。

五、参考文献

[1]徐欣怡.Y酒店营销策略优化研究.广东工业大学,2021

[2]章思思.网红经济背景下富阳东梓关村民宿旅游发展研究.广西师范大学,2022

[3]张放.风险投资的引入对公司绩效影响的研究.华北电力大学,2015