垃圾短信过滤系统的设计和实现王伟

(整期优先)网络出版时间:2017-12-22
/ 2

垃圾短信过滤系统的设计和实现王伟

王伟

天元瑞信通信技术股份有限公司陕西西安710075

摘要:垃圾短信是指在移动通信网络中不请自来!不加选择!大批量发送的长度在140字节以内的文本文档。垃圾短信过滤根据短信的各种特征,从动态变化的短信流中自动进行垃圾和非垃圾的二值分类,并据此阻止垃圾短信传播.最早的垃圾信息过滤研究可追溯到上世纪80年代,后逐渐分化为非基于内容的过滤方法和基于内容的文本分类方法。

关键词:垃圾短信;文本分类;黑名单;白名单

1前言

手机短信依附挪动性强、收发便捷、资费高等优势,已逐步成为人们主要的沟通对象。手机用户数目的赓续增长推着短信发送数目呈几何级数上升。渣滓短信的成绩也是以突显出来,不只对人们的正常生涯形成了诸多的不良影响,还对公共平安和社会稳固形成了必定水平的伤害。垃圾短信的常见内容包括广告信息、色情信息、假中奖信息、欺诈信息、恶作剧等。目前在国内外,垃圾短信和垃圾邮件一样,都逐渐成了倍受关注的问题。是以对渣滓短信精确过滤显得特别主要。手机垃圾短信的特点垃圾短信指未经请求或许可而收到的短信。与垃圾邮件过滤相比,短信过滤具有以下特点:(1)SMS只包含内容和发件人号,没有其他信息,这将大大减少可以被利用的规则的数量。(2)短消息长度有限,通常为140个英文字符长度,即70个汉字。短文本提供了不太可用的文本信息,需要额外的特性来补充它。(3)邮件地址容易伪造,但短信数量难以伪造,黑白名单法在短信系统中非常有效。(4)短信需要准确的计费相对于互联网,所以发送和接收可以集中处理,可以很容易地阻止黑名单用户在短信中心。(5)垃圾短信的内容非常相似,不会在一段时间内做出任何改变或做出非常小的修改。(6)发送频率比较高,即单位时间发送的量较大。(7)一般将每条短信发送给不同的人。(8)发送没有时间特性,也就是说,在任何时间长度发送的消息的数量是相同的。

2手机垃圾过滤的几种方法

现在,依据手机废物短信的特色,对废物短信的处理有两种技能:一种是在发送的服务器中心SMSC(ShortMessageServiceCenter,短信服务中心)进行处理,另一种办法是直接在手机上用编制的内嵌程序完成。

在SMSC环节,对短信内容的监控首要经过抽检完成。例如发现某SP流量俄然增大,频率增高,则能够对其短信进行抽检,一旦发现违法内容,即可选用封堵。实时检测是在短信发送时就进行检测,对一切的短信进行检测可行性不强,一方面要投入大量的人力、设备和成本,另一个方面违反短信快捷的特色,影响时效,一起也侵犯了用户的隐私权和通讯,在法律上得不到支撑。

因为每个人对废物短信的界说都有所不同。在SMSC环节对群信息进行堵截一刀切的形式进行过滤的办法很简单将某些用户以为不是废物短信息的短信堵截。如果在用户的手机端进行废物短信息的过滤就不会呈现这个问题。(1)能够依据用户个人的具体情况设置白名单和黑名单完成对特定号码信息的过滤。(2)能够让用户自己依据对废物短信的界说,选定过滤规律,使得废物信息的过滤变得个性化。(3)用户能够对收到的某些短信息指定为废物短信息,进行再次学习,及时扩展过滤的才能。

总归,在手机端用编制的内嵌程序完成废物短信息的过滤能够使得对废物短信息的过滤变得个性化和契合用户个人的需求。使用废物邮件过滤的原理,我们能够规划废物短信过滤的一些办法:从技能上来剖析,废物短信息的过滤办法能够选用以下几种办法:白名单和黑名单技能、关键词语的匹配法,还有本文即将介绍的贝叶斯推理过滤办法等。

白名单和黑名单技能即将接纳的发信息人的号码列入白名单,即将拒绝的发信息人的号码列入黑名单,这样就能够对发来的短信息进行过滤。

3贝叶斯过滤方法介绍

贝叶斯过滤算法的基本进程如下:

①搜集很多的废物短信息和非废物短信息,树立废物短信息和非废物短信息集。

②提取短信息主题和短信息体中的独立字串例如ABC32、¥234等作为TOKEN串并计算提取出的TO-KEN串呈现的次数即字频。依照上述的方法别离处理废物短信息集和非废物短信息会集的短信息。每一个短信息集对应一个哈希表,hashtable_good对应非废物短信息集而hashtable_bad对应废物短信息集。表中存储TOKEN串到字频的映射联系。

③计算每个哈希表中TOKEN串呈现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)。归纳考虑hashtable_good和hashtable_bad,推断出当新来的短信息中呈现某个TOKEN串时,该新短信息为废物短信息的概率。

4系统实现和实验结果

我们对于贝叶斯过滤算法的完成包括了两个阶段:学习阶段和运用阶段。学习阶段的主要任务是:经过对收集到的很多的废物短信息和非废物短信息进行学习,生成各个词语在废物短信息和非废物短信息中出现频率的概率模型供学习和判别运用。

运用阶段的主要任务是:对接收到的短信息,运用它所包括的词语在学习阶段构成的概率模型文件中的概率进行贝叶斯推理,判别其是否为废物短信息,如果是废物短信息,则将该短信息打上废物标志,并对该音讯作为废物短信息进行加强学习。

在学习阶段,运用Sqlite生成一个用于存储生成概率模型的数据库,把废物信息和非废物短信息中的词语连同词频存储于数据库中,把构成的概率表也存储于数据库中,即生成hashtable_good和hashtable_bad,hashtable_probability。当进行短信息判别的时分,首要进行分词,从数据库中取出各个词语的概率,然后运用上节的复合概率公式进行核算推理,当核算的成果超越必定的阈值的时分就将该短信息判定为废物短信。如果用户发现某一个号码常常发送废物短信,就可以将该号码参加黑名单,使得今后该号码的信息会被自动屏蔽,提高了功率。在中文的废物短信息过滤中,还需要运用中文分词,中文分词的质量对废物短信息的过滤精度有比较大的影响。

5结束语

经过试验成果能够看出,本体系的准确率根本到达了预期的作用,也具有较好的健壮性,可是我们完成的这个根据贝叶斯办法的废物短信息过滤体系也存在着如下问题:

(1)供练习用的信息量姑且不足;

(2)判别时所根据的阈值由人为片面设定,该阈值的设定影响断定的精度;

(3)对供练习文件需求练习几回才干到达最好的作用;

对于体系存在的问题,我们未来需求进行进一步的作业,搜集更多更完全的废物短信息,进一步完善对废物短信息判别后进行自学习自扩展的功用,寻觅新的算法,归纳运用各种算法来进行废物短信息的过滤,规划能够主动设定阈值和练习次数的算法,使得练习和判别时能得到最佳作用。

参考文献:

[1]陈秀琼.基于贝叶斯网络的数据挖掘技术.三明高等专科学校学报,2004

[2]DavidHand,HeikkiMannila,PadhraicSmyth.数据挖掘原理.张银奎,廖丽,宋俊等译.机械工业出版社&中信出版社,2003.4(第1版)

[3]H.Witten&EibeFrank.数据挖掘实用机器学习技术及Java实现(第二版).机械工业出版社,2005.9