基于用户画像的高校图书馆读者智能推送

(整期优先)网络出版时间:2019-12-27
/ 2

基于用户画像的高校图书馆读者智能推送

马仲兵 

长江师范学院 重庆  408000

摘要:传统高校图书馆对读者信息推送缺少对用户差异性等因素的考虑,导致图书馆无法对用户精准化信息推送。本文在大数据环境下利用用户分析和服务设计工具对用户进行画像,为用户进行精准化、个性化、智能化信息推送,提高图书资源的利用率。

关键词:信息推送;大数据;用户画像;深度学习

1 引言

人们逐渐从信息匮乏时代步入信息超载时代,互联网提供的信息种类和数据纷繁复杂,信息增长速度远大于人们处理速度。随着大数据技术的深入,大数据迫切需要大分析技术来凸显数据价值,但大分析目前在我国尚处于起步阶段,还缺少使用经验,缺少理念和应用环境,面临很多问题。大数据形成的“数据资产”将会不断增值。挖掘数据资产的价值,是企业现阶段及今后必然面对的问题。

图书馆利用大数据的关键是命中用户需求点。大数据能够精准定位用户需求,提高目标用户的正当利益,这是传统图书馆无法做到的。目前,各个高校加大对图书馆的投入,图书馆资源增长速度快,给用户带来了大量的冗余信息,通过对用户画像,了解用户的差异化需求,成为精准描述用户行为特征的有利工具之一。

2 相关理论基础

2.1 用户画像概述

“用户画像”目前并没有统一的定义,主要用于勾画目标用户、联系用户诉求与设计方向的有效工具。存在两种不同的观点:一种由交互设计之父A.Cooper提出的,他认为用户画像也叫用户角色是建立在真实用户数据上的虚拟角色描述。通过抽样问卷调查、电话调查等传统调查方式进行用户统计属性、消费心理等多维数据来抽象出用户之间的差异。本文所指的用户画像是在大数据环境下产生的,英文表达即“User profile”,包含用户静态和动态两类属性。静态属性是指用户的注册的基本信息,包括性别、年龄、年级、院系、专业等。动态属性是隐藏在用户随机的互联网行为过程中,如用户的行为、用户的喜好等具有隐蔽性,需通过数据分析、数据挖掘的过程才能让用户隐性的属性显性化。

2.2 用户画像研究现状

用户画像的研究是当前学术界和产业界最热门的话题之一。用户画像中的用户特指描述用户的数据,源于现实,高于现实,是对用户的行为形式化的描述。大数据时代用户既是网络资源的获取者又是网络信息资源的制造者,了解用户需要什么信息,制定个性化搜索以及智能化、个性化推荐成为当今大数据时代的当务之急。

构建用户画像多采用贝叶斯网络、神经网络、聚类分析以及统计等方法。主要是从精准营销、用户行为两方面来研究。王凌霄、沈卓、李艳从用户资历、用户参与度、用户回答质量以及用户发展走势4个方面来构建社会化问答社区用户画像。黄文彬,徐山川等从移动用户频繁活动、规律行为以及移动速度3个方面采用频繁模式挖掘、构建概率矩阵对移动用户画像进行构建。杨平在利用词提取算法和归一化社会标签兴趣发现算法的基础上,开发“UPS”用户画像构建系统来对社交媒体中用户的兴趣和职业两个重要特征进行画像。胡媛、毛宁在对用户画像的基础上,形成了图书馆知识社区关联模型的构建,并总结出数字图书馆社区用户构建综合服务能力评价指标体系。

2.2智能推送研究现状

信息推送是在1996年由美国Point Cast Network公司推出的,它也称为“网播”。主要是用于向用户主动推送各种新闻、商业贸易等信息。进入21世纪后,微软、网景等大公司也在网络信息传播障碍扫除、无线传感器的查询处理等众多领域进行了深入研究。由于传统的推送技术智能化不够,无法准确地推断出用户所需的问题,因此降低了推送的针对性。

目前研究的推荐系统主要有基于协同过滤算法、基于内容、基于网络结构以及基于混合推荐算法。信息资源的推送方式主要有主动式推荐和针对式推荐两种方式。具体来说目前主要存在有六种方法:1)邮件列表式推送 利用网站订阅等功能来实现用户自主订阅的资源信息,从数据库中提取订阅用户的电子邮件信息通过设计循环语句,实现信息推送;2)基于服务器和客户端的信息推送 当客户端与服务器连接成功时,便会弹出一个信息推送网站,从而实现信息的智能推送,如腾讯QQ;3)频道式推送 RSS是目前使用最为广泛的频道式推送方式之一。能够实现网站与网站之间的内容共享,常用于微博、新闻等交互式网站;4)手机短信方式推送 这种方式在目前高校图书馆使用得比较频繁,为了满足不同运营商的接口需要,它需要跨接多种协议的短信平台;5)专用式推荐 对推荐信息实行点对点的推荐;6)网页式推送 将特定网站内的信息推送给所需的用户。

3 研究设计

3.1 用户画像构建

用户画像的构建是一个长期逐步完善的过程,遵循“按需设计”的标签构建原则。用户画像是建立在众多真实数据之上的,经过数据清洗、整理、挖掘、分析之后被细分成差异化标签描述,从而更好地为用户提供精准化、个性化服务。其关键技术包括分布式计算,自动标注、文本语义理解和机器学习。为完成基于用户画像图书馆读者智能推送功能,本文采用非关系型数据库Hbase作为数据存储工具,由于它是以流的方式存储所有的数据,采用分布式存储,具有高可靠性、高性能等优点,底层存储由HDFS提供高可靠性支持,同时可以在廉价的PC Server建起结构化存储集群。分布式计算采用的是基于内存计算的大数据分布式计算架构的Spark。选择Spark的主要原因在于它是基于内存计算,具有很好的迭代运算,容错性能好,处理速度快,形成它可以部署在大量廉价的硬件上集群,对轻量级的数据也可以进行快速处理,具有很好的易用性和兼容性。样本标注采用人工标注和自动标注相结合的方法进行。我们标注主要是针对中文语料,自动标注采用对中文处理比较好深度学习RNN模型。用户信息的标签分类,采用贝叶斯网络,相互贝叶斯分类,SVM等传统的机器学习算法。

4基于用户画像的高校图书馆读者智能推送

提高图书馆利用的核心就是将图书馆的资源适时、主动地、针对性推送给用户,想用户所想,急用户所急。图书馆在工作过程中会不断地为用户提供新的资源,新的服务,这些新的资源、服务如果不对用户进行推荐,用户也许不会知道这些资源的存在,为了提高图书馆资源的利用率,图书馆应采取主动服务的意识,让用户了解图书馆的某些资源可能对用户有用。将这些可能会让读者有用的知识主动地推送给读者,实现图书馆“知识找人”的知识智能推送模式。

本文所设计的智能信息推送方式采用用户触发信息推送和服务器主动推送的结合体。上节中通过用户画像已经将用户抽象成一个个虚拟成员。并且对用户的知识领域、知识主题以及知识类型、操作策略等方面进行了标签化处理。用户标签通过语义匹配图书馆数据仓库,若有匹配,就将匹配的知识形成精细的知识文档,通过智能推送引擎将文档分发给业务流程模块,最终将形成的知识文档以互联网、移动平台等方式发送给用户。

5 结束语

本文尝试从用户访问图书馆行为、借阅历史行为、访问图书馆网站行为、移动图书馆使用行为、书斋行为等多维度来挖掘用户使用图书馆的偏好,形成差异化的用户画像。进一步提高信息系统主动服务能力和用户获取信息的效率, 使网络信息服务方式变得更加灵活和个性化。高校图书馆只有顺应时代的发展,才能更好地向用户展示图书馆的价值。大数据来临时代,对高校图书馆来说既是机遇又是挑战。借助大数据不但能使图书馆资源结合用户需求,还能进一步提升图书馆核心竞争力,只有提前掌握了用户的大量数据信息,才能在竞争中掌握市场先机,提高目标用户的中弹率。

参考文献:

[1]王凌霄,沈卓,李艳. 社会化问答社区用户画像构建[J]. 情报理论与实践,2018(1):129-134.

[2] 黄文彬,徐山川,吴家辉等. 移动用户画像构建研究[J]. 现代情报,2016(10):54-61.