国土舆情自动分词方法浅析

(整期优先)网络出版时间:2018-12-22
/ 1

国土舆情自动分词方法浅析

穆永强

1.太原理工大学计算机科学与技术学院山西太原030024;

2.孝义市国土资源局山西孝义032300

摘要:土地是人类赖以生存的要素资料,各类生产活动和日常生活都要在土地上进行,因此现实中涉及土地的纠纷众多,而随着移动互联网以及微博、微信等各种移动媒体和自媒体的兴起,网络上关于土地的舆情信息也纷繁杂乱,针对土地的纠纷、投诉以及信访内容更是国土管理部门关注的重点。本文提出一种基于分布式网络爬虫的国土舆情自动分词方法,利用网络爬虫技术自动获取跟国土相关的网络舆情,然后对舆情信息进行分词,为后续的国土舆情自动分类提供基础,提高国土管理部门信息的获取和处理效率。实验表明,该方法的分词效率高,分词精度高达94.7%。

关键词:国土;自动分词;浅析

1引言

近年来,随着互联网技术和信息技术的飞速发展,以传统新闻报道、博客结合微博、微信公众号等自媒体的舆情与言论系统出现了井喷式发展。面对这些总量巨大、增量迅速、分布松散、关联稀疏的舆情文本,用户希望能够从其中快速获取核心语义信息,对各类信息进行归类处理,全面及时的了解事件的全过程以及动态进展,以针对某些重点事件采取及时准确的响应措施。本文面向国土舆情处理的具体需求,开展基于分布式网络爬虫的国土舆情文本的自动分词研究,为后续的国土舆情自动分类提供基础。

2基于网络爬虫的国土舆情自动获取

网络舆情有成百上千种形成渠道,从传统的门户网站到论坛,从新兴的微博到微信公众号,以及井喷式的新闻自媒体客户端,每天都有数以万计的网络信息产生,如何从这些海量的网站服务器或者特定的服务器数据中获取有关国土的舆情并加以分类,就需要利用网络爬虫技术。

网络爬虫是一个自动提取网页的程序。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。首先进行python环境安装和设置,采用python2.7.6。接着安装必要的依赖包,包括Mysql-python依赖、lxml依赖和浏览器环境selenium依赖,接着初始化mysql,安装mysql-server后,设置字符为utf8mb4。创建数据库unicrawler并初始化表后,部署nginx,supervisor以及crontab脚本,将按照规则获取到的国土舆情储存在数据库中。

4国土舆情分词试验及评价

根据第三章配置好的网络爬虫,设置国内主要媒体网站、公众号和微博作或者我们特定的网站服务器数据为爬取对象,以“土地”、“国土”、“征地”、“拆迁”为关键词,爬取一周内的数据,然后利用第四章的分词方法进行分词试验,试验按照前面介绍的流程依次进行。据统计整个分词的总体精度为94.7%,Kappa系数为0.919,由此可以看出基于网络爬虫的国土舆情自动分词方法精度很高,可以为后续的分类提供良好的基础。

5结论

随着互联网技术日新月异的发展,新媒体以及新消息发布的渠道越来越多,网络舆情监测和管理变得非常重要,其中关于土地使用以及土地纠纷的网络舆情更是与老百姓的日常生活息息相关,如果不能及时的发现并处理,事态极有可能发展到不可控的局面。因此,本文重点研究国土舆情的自动分词方法,提出一种基于网络爬虫的国土舆情自动分词方法,该方法首先利用网络爬虫技术从众多的信息源中自动根据关键词获取国土相关的舆情,起到有效信息筛选的关键作用;然后利用汉语词法分析系统ICTCLAS进行自动分词,实验结果表明,该方法的分词精度高达94.7%,Kappa系数高达0.919,完全满足后续分类的精度要求。