Web挖掘个性化模型研究

(整期优先)网络出版时间:2019-05-25
/ 3

摘 要 本文对个性化建模技术进行了研究,提出一个基于用户兴趣挖掘的个性化模型,并将其用于个性化元搜索引擎中,为个性化分析提供依据。该模型基于客户端,将用户的访问页面作为挖掘对象,不需要用户过多的参与,自动从用户的隐式反馈中推导出用户的兴趣。模型中将用户的兴趣分时分段,分层分类的进行记录、管理,并仿照人类记忆的遗忘规律对用户兴趣进行有选择、非平等的遗忘,通过不断的更新与优化模型,使模型能准确反映用户的兴趣特征。

关键词 个性化;用户兴趣挖掘

1 引言

随着互联网内容指数级的增长,如何满足各种用户不同的个性化需求等,是新的信息服务系统面临的挑战性课题。个性化服务是Internet信息增长的必然结果。一个好的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。作鲂曰竦幕『秃诵模没P偷闹柿恐苯庸叵档礁鲂曰竦闹柿俊?lt;/FONT>

2 相关技术研究

2.1 用户兴趣挖掘技术

在Web挖掘系统中对用户兴趣的挖掘所采取的途径主要有下面三种:

⑴从表达用户个性化的文件中获取用户的兴趣。该文件可包括两种信息:一种是用户主动填写的需求信息;另一种是用户提交的背景信息、注册信息等。

⑵监视用户的信息搜索与浏览过程,分析用户的兴趣爱好,然后根据用户的兴趣爱好进行信息推荐(如letizia[1] 、WebWatch[2]等)。

⑶从用户的浏览行为中推断出用户的兴趣,主要采用Web使用挖掘技术,通过感知用户的反应,分析用户行为的意图,获取用户感兴趣的相关信息及其感兴趣的感性程度。

2.2 用户建模技术

根据建模过程中用户的参与程度,用户建模技术可以分为:用户手工定制建模、示例建模和自动用户建模[3]。

⑴ 用户手工定制建模

用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法。用户手工定制建模的典型代表是My Yahoo和WebWatcher。

⑴ 示例建模

示例建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。

示例建模对用户的依赖很少,构建的模型也更能全面地反映用户的兴趣爱好,但需要用户在浏览的过程中标注页面以得到示例,这就严重干扰了用户的正常浏览。

⑶ 自动用户建模

自动用户建模是指根据用户的浏览内容和浏览行为构建用户模型。此方法改进了示例建模方法中的示例获取途径,将其转化为无需用户标注的自动示例获取方法。这种方法容易引入噪声,不利于构建高质量的模型。此外,对用户访问日志进行挖掘也是一条实现自动建模的途径。通过日志挖掘可以发现用户的访问模式、购买习惯等特点,构建用户模型。

3 Web挖掘的个性化模型总体设计

Web挖掘个性化模型主要由四个模块组成:页面预处理模块,页面分类模块,兴趣生成模块,更新与优化模块。它们之间的关系如图1所示。

1050376803.gif

图1 Web挖掘个性化模型设计

页面集合中存储了用户最近访问的页面,这些页面隐含着用户的兴趣,是该模型挖掘的起点。首先清除无用数据,只保留用户感兴趣的内容页面,并对这些内容页面进行特征提取等工作。随后,页面分类模块根据用户的个性化模型和分类参考模型将各个页面归类。兴趣生成模块负责统计各个兴趣类中的页面特征词信息,综合生成用户兴趣向量。更新与优化模块是模拟人类记忆的遗忘规律,对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整、更新,并有选择地将一些短期兴趣转化成长期兴趣,逐步优化模型。各个模块的功能具体介绍如下:

⑴ 页面预处理模块

该模块主要完成两部分工作:一、对WWW缓冲区中的数据进行净化,清除与用户兴趣挖掘无关的文件;二、对保留的内容页面进行格式转换,切分出页面中所有的特征词,滤除词条中判断能力较差的停用词、超高频词和超低频词,然后根据词在页面中出现的位置,分别乘以不同的加权系数,得到最终的权值,构成页面特征向量。

⑵ 页面分类模块

得到页面特征向量后,可通过计算页面与主题概念类之间的相似度来判断页面属于哪一类。计算相似度时,我们综合考虑了个性化模型中的用户兴趣向量和分类参考模型中的主题兴趣类向量,将页面与这两者的相似度和的平均值作为页面与主题概念类的相似度,然后将页面归类到相似度值最大的主题类。

⑶ 兴趣生成模块

所有页面处理完以后,参考兴趣分类模型与分类词表,逐类统计页面信息与特征词信息,并根据TF-IDF方法计算出各个特征词的权值,生成用户兴趣类向量,进而将用户的兴趣特征由关键词抽象成概念主题,同时引入时间机制,突出用户兴趣的时效性。

⑷ 更新与优化模块

更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程度,并周期性地将用户短期兴趣中的重要信息转移到长期兴趣中。通过不断的更新与优化,个性化模型能及时体现用户兴趣的变化,准确反应用户的真实兴趣信息。

4 个性化模型分析设计

根据用户的兴趣需求信息建立个性化模型,首先要获得用户兴趣信息;然后才能对用户的兴趣特征进行形式化的描述,从中归纳出可计算的模型;并能跟随用户兴趣的变化,不断地对模型进行更新与维护。

4.1 用户兴趣类向量表示

更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程

用户兴趣类向量是用一个加权关键词向量来表示,特征词权值的计算过程如下:

1)统计兴趣类中所有内容页面的数目N;

2)求出所有页面的特征词的并集K={K1,K2,…,Km}作为用户兴趣类向量的候选特征词;

3)统计特征词Ki在多少篇文档中出现,将其数目记为Ni;

4)利用TF-IDF方法计算各个特征词的权值:

1050382371.gif

其中,tfij(I =1,2,…,m; j =1,2,…,n)表示特征词Ki在页面Pj中的权值;

依次计算了各个特征词的权值后,就可得用户的兴趣类向量。

定义:兴趣类特征向量由一组特征词及其权值构成,表示为:uc={(K1,W1),…,(Ki,Wi),…,(Km,Wm)},其中Ki∈ K(K为兴趣类特征词全集),Wi表示其对应的权值。

4.2 用户兴趣存储方式

为了区分用户的不同兴趣类别,我们将用户的兴趣表示成与兴趣分类参考模型相一致的类似于树的结构形式,称为用户兴趣树。在大多情况下,用户兴趣树只是兴趣分类参考模型的部分映射。这种树形结构可以保存用户的兴趣类型信息,也可以保存用户兴趣特征词的信息,如图2示:

1050387094.gif

树中除虚拟根结点外,中间两层表示用户兴趣类别的结点称为兴趣结点,最底层的结点称为特征词结点。为了适应用户兴趣的变化,我们把用户兴趣分为长期兴趣和短期兴趣。用户的两棵兴趣树,可单独用来进行个性化分析,也可综合起来使用。

4.3 用户个性化模型表示

在此提出的个性化模型仍然是使用传统的词频法来衡量用户的兴趣,下面介绍一下个性化模型中对用户兴趣的各种描述方式。

定义:兴趣类特征词集T(ci)由类ci中的特征词构成,表示为:{t1,t2,…,tk},其中ti(1≤i≤k)表示特征词名称,k为特征词总个数。

定义:用户兴趣集C由用户所有的兴趣类别构成,表示为:{c1,c2,…,cm},其中ci (1≤i≤m)为用户感兴趣的兴趣类别名称,m表示用户兴趣类别总数。

1050388023.gif

1050391813.gif

用户的长期兴趣和短期兴趣也可分别拿来使用,它们相对独立,长期兴趣比较稳定,短期兴趣则能体现用户最近的兴趣。将个性化模型用于个性化服务系统时,可以抽取不同层次的兴趣类信息对用户的兴趣进行描述。第一层兴趣结点的信息,可以粗略了解用户的兴趣方向,第二层结点的信息,可以更详细的了解用户的兴趣,当然也可以提取用户兴趣全集。

4.4 用户个性化模型更新

在基于内容的兴趣表示方式中,用户的兴趣大多采用加权关键词向量表示,并没有将用户的兴趣归类分析,兴趣更新的方法大致可分为以下两种[5]。

⑴ 兴趣交集淘汰法

这种方法以用户反馈的新文档向量作为当前的兴趣向量,而兴趣模型中存储的向量则作为历史兴趣向量。做法为:将兴趣模型中的兴趣词条与当前兴趣向量中的词条作对比,若相同,则把该词条在两向量中的权值相加后得到的新权值赋予用户当前向量中的相同词条;若不同,则保留当前兴趣向量中的词条和权值。这种方法节省了存放用户兴趣信息的容量,在用户兴趣发生转移时,能快速调整模型,及时获得新的兴趣信息,但由于模型中只记录了当前兴趣,并不保留历史兴趣,记录的用户兴趣信息不全面,导致了用户兴趣淘汰太快,而且容易引起兴趣反复变化。

⑵ 兴趣合集归并法

这种方法同样需要对用户反馈的新文档进行抽词,得出文档向量,然后进行词条对比操作。词条相同,则将其权值相加后得到的新权值作为模型中该词条的权值;词条不相同,就分别保留不作任何改动。这种方式,意在降低用户兴趣变化的影响力,但该方法获取用户兴趣信息周期相对较长,而且随着时间的积累,模型中存放的兴趣信息越来越全面,将逐渐弱化用户兴趣之间的差别。

为了更好的监测到用户兴趣的变化,更好的解决兴趣交集淘汰法对兴趣淘汰太快和兴趣合集归并法对兴趣变化适应太慢的问题以及减小存储空间的问题,我们尝试了将用户兴趣分为短期兴趣和长期兴趣来分别对待。

短期兴趣以用户当前的兴趣为主,每个特征词都添加了时间属性,用以来区分新旧兴趣。当短期兴趣中的信息积累到一定的程度,构成稳定兴趣时,可将其转化为长期兴趣,因此长期兴趣存储了长期以来用户的主要兴趣,这样可以更好地描述用户的兴趣特征。

另外,目前对用户兴趣的分析大都是基于关键词,由于词在语义上的多义性,一定程度上影响了用户模型的准确度,所以,我们采取关键词和主题概念相结合的方法来表示用户的兴趣特征,通过挖掘蕴含在文档中的概念,建立加权概念层次的兴趣模型,描述和捕捉用户的兴趣偏好。

人类记忆遵循自然遗忘的规律,我们假设用户兴趣的遗忘也遵循这个规律,即用户的兴趣也随着时间的流逝逐渐减弱。用户最近多次访问的词条往往最能代表用户最近的兴趣,而长时间没有更新的词条,不再代表用户的当前兴趣,可以通过让其不断“衰老”达到过滤的目的。

1050395090.gif

模型的更新过程分三步实现:

⑴ 短期兴趣的更新,包括加入用户的最新兴趣和对旧兴趣的遗忘。

⑵ 短期兴趣向长期兴趣的转化,将短期兴趣中相对比较重要的特征词及兴趣度超过一定阈值的兴趣类转成长期兴趣。

⑶ 长期兴趣的更新,随着时间的推移,也需对用户的长期兴趣逐渐遗忘,逐渐淘汰用户不感兴趣的主题,重点突出用户的主要兴趣爱好。

这样,个性化模型就能根据用户浏览的信息,动态地感知用户兴趣需求的变化,并通过不断更新来逐步明确用户的兴趣需求。

5 结论及将来的工作

本文详细描述了用户模型的建立及更新过程。首先,根据用户首次使用系统时的定制信息生成用户长期兴趣树,利用第一次挖掘的用户兴趣生成初始的短期兴趣树;然后,分析、比较了两种更新用户兴趣的方法和基于时间窗机制的遗忘方法,模拟人类记忆的遗忘规律,提出一种新的遗忘机制;最后,利用这种遗忘机制,不断的更新、优化模型,

目前,关于个性化服务方面的相关研究还有很多,本文只是关于个性化服务方面研究的一种方法。我们相信,随着个性化服务模式的发展,个性化建模技术将得到进一步的快速发展,并能得到广泛应用。

参考文献

[1] Pazzani M, Muramatsu J. and Billsus D. Syskill&Webert: Identifying Interesting Web Sites. Proceeding of the 13th National Conference on Artificial Intelligence, 1996:54-61.

[2] Joachims T., Freitag D.and Mitchell T. WebWatcher: A Tour Guide for the World Wide Web. Proceeding of 15th International Joint Conference on Artificial Intelligence, August, 1997.

[3] 应晓敏,窦文华. 个性化服务. 计算机世界, 2003年6月16日, 第22期.

[4] Mladenic D. Personal WebWatcher: Design and Implementation. Technical Report IJS-DP-7472, Dept of Intelligent Systems, J. Stefan Institute.

[5] 马琳. Web搜索引擎中个性化信息服务关键技术研究. 南京大学硕士学位论文, 2002.

[6] 蒋萍, 崔志明. 智能搜索引擎中用户兴趣模型分析与研究. 微电子学与计算机, 2004.21(11):24-26.