简介:LDA主题模型是文本挖掘领域的重要算法,同时在推荐系统当中也有不错的表现.通过LDA主题模型挖掘用户感兴趣的主题,是目前最常用的用户兴趣主题挖掘方法之一.为了提高LDA主题模型应用在推荐系统时的推荐质量,我们提出了一种基于负样本进行学习的方法negLDA.通过创造出负样本来学习用户对物品的负面预测评分,同时结合正样本学习得到的正面预测评分,从正反两个方面进行综合评测,从而更加精确地衡量出用户对物品的预测评分.通过在MoviesLens-100k、MovieLens-1M、FilmTrust这三个数据集上的实验,表明所提出的算法在精确率、召回率、AUC三个指标上相比传统算法均有一定改进.
简介:随着“互联网+”概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.