自然语言处理在社交媒体数据分析中的应用探究

(整期优先)网络出版时间:2024-06-04
/ 2

自然语言处理在社交媒体数据分析中的应用探究

杨宸 张中凯 王璞

北方自动控制技术研究所 山西太原 030006

摘要:自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言。据统计,用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理,信息处理包含理解、转化、生成等过程。自然语言处理(NLP)是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。

关键词:自然语言处理;智能问答;机器学习 ;平台架构

前言:自然语言处理是人工智能的一个重要分支。随着近十年计算机计算性能的大幅度提高和各种大规模语料库的构建,自然语言处理技术取得了长足的进步,并且在多个领域被广泛应用,尤其是教育领域。

  1. 对自然语言处理定义的理解

自然语言处理主要研究人与计算机之间用自然语言进行有效交流的各种理论和方法。自然语言是指汉语、英语等人们日常使用的语言,而语言是人类学习的重要工具。自然语言处理技术可以广泛应用于师生教与学的活动过程中,自然语言处理是教育智能发展的基础。由于自然语言处理技术涉及多种不同的任务,基于AI科学家的视角,我们可以从四个层次对自然语言处理的定义进行理解:一是对文本进行处理,包括对自然语言进行分句、分词、词性标注(将文章中的每个词标注为名词、动词、形容词等)、命名实体识别(识别出文本中的时间、地点、组织等)等。2019年,周明在全球人工智能与机器人峰会上提出,自然语言处理就是用计算机对人类语言进行处理,包括对字、词、句、篇章的输入、输出、识别、分析、理解、生成等,以使得计算机具备人类的听、说、读、写能力(微软亚洲研究院,2019)。二是对自然语言的理解。在对文本进行处理的基础上,自然语言处理技术会理解文本包含的意义,比如表达意图、情感、情绪等理解过程。刘群解释,自然语言处理的研究对象是人类语言,如词语、短语、句子、篇章等。通过对这些语言单位的分析,计算机不但可以理解语言所表达的字面含义,还可以理解人类语言所表达的情感以及语言所传达的意图(知乎,2019)。三是交互,即人类通过自然语言与计算机进行交流对话,例如,人机问答–教育机器人、浏览器搜索、智能电子设备的信息沟通等。DanJurafsky认为,自然语言处理是实现人与计算机之间用语言进行有效通信的方法,是了解人类心理和态度的最佳途径(Dan,2017)。DragomirRadev认为,自然语言处理可应用于人机问答、情感分析、机器翻译、语义分析、拼写纠错等教育活动,但是话语意图分析、习惯性表达、语义相关等方面的语言理解使得自然语言处理发展遇到挑战(Dragomir,2017)。四是创新,即计算机可以通过语言理解进行智能创作,包括写作辅助、图文自动生成等。例如,2021年,IIyaSutskever宣布,语言模型将开始了解视觉世界,通过自然语言的输入,系统可以智能生成各种具有创造性的图像(OpenAI,2021)。何晓东认为,自然语言处理作为人工智能的核心技术,主要用于连接人类和计算机世界的交流(何晓东,2019)。从自然语言处理定义的四个层次可以看出,基于自然语言处理技术可以开发出具有互动性、创新性、个性化的智能工具来赋能教育的智能发展。AI科学家期望随着自然语言处理技术的不断优化,相关智能工具的性能会被不断提高,并为未来的智能教育带来更好的体验。

2.社交媒体数据挖掘方法

2.1数据挖掘方法

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中人们事先不知道的、并具有潜在利用价值的信息和知识的过程。数据挖掘是一个多学科交叉的领域,涉及数据库技术、人工智能、机器学习、人工神经网络、统计、模式识别、知识库工程、信息检索、高性能计算技术、可视化等领域。目前数据挖掘研究和开发表明:数据挖掘需要覆盖各种不同的应用任务,从数据的预处理到关联规则、聚类分析、数据分类、偏差检查、序列模式等特定的模式。频繁模式与关联规则挖掘问题首先由R.Agrawa提出,它是很多其它挖掘问题的基础。Agrawal提出的Apriori算法是挖掘关联规则的最基本、最具影响的核心算法。国内针对突发事件应急管理中需求数据挖掘的研究中,柳萌萌等同提出一种基于多尺度挖掘的应急管理系统需求数据挖掘方法。数据划分尺度的设定依靠概念分层理论,根据与应急决策支持系统多尺度需求数据集间的上下关系;利用多尺度关联规则挖掘算法,实现应急决策支持系统需求数据挖掘,这种挖掘算法虽然数据挖掘覆盖率、精确度较高,但挖掘效率较低,无法满足海量数据挖掘需求。刘海涛提出了基于加权代价的需求数据挖掘方法,通过构建决策树对应急管理工作中的需求数据进行代价敏感学习;设定不同的需求数据的具体权值,给出加权可靠度;通过非频集过滤矩阵寻找需求数据频繁项集,得到需求数据间的关联规则,根据这种关联规则挖掘出所有的需求数据,该方法的弊端是挖掘精度较低。杨帆等提出了一种基于支持向量机的应急管理需求数据挖掘方法,采集应急决策支持系统需求数据,根据需求数据采集结果构建需求数据分类模型,对需求数据进行分类,实现应急决策支持系统需求数据快速挖掘。这种数据挖掘方法可以有效应对应决策支持系统小样本、高维数据的问题,具有可视性强、准确率高,应用范围广等优点,但挖掘效率过低。彭秦晋提出一种新的需求数据挖掘方法--基于最大间隔准则与最小最大概率机相融合的应急决策系统数据自助挖掘方法。

2.2社交媒体数据传播方式分析

社交媒体数据受社交媒体软件的限制,数据传播方式存在差异。以国内普及率较高的社交媒体软件为例,社交媒体又可以划分为侧重于用户与用户之间的交流的社会化关系网络,如微信等;侧重于用户信息接收的社会化信息网络,如微博、论坛、帖吧等;以及单向数据传输网络,个体间交流极少的官方网站、新闻社区、电子杂志、网络电视等。社会化关系网络侧重于用户与用户之间的交流与信息传递,用户与用户之间多存在双向的交流关系,互为信息的传递者和信息的接受者,同一信息传播载体不同用户之间同层次信息传递密度大,远超同等密度用户的社会化信息网络与单项数据传输网络。但用户受其相关点数量等指标的影响,信息的传播多数流通在群体内部交流,单个用户连接的信息接收者在三类信息传播载体中最少。社会化信息网络中单个用户信息传播的广度最大,即单个用户连接且实现的信息传播关系数量最多,单个用户连接的信息通道呈网状辐射,但用户之间的信息传播关系多为单向传播,建立信息传播关系越多的用户,单向信息传播通道占其连接同一信息传播载体使用用户信息传播通道的比重越大,建立相互信息传播关系占其所建立的全部信息传播关系的比重越小。单向数据传输网络,通过作为媒介的用户,大量辐射到其他的社交媒体中,在信息传播的过程中起到公示的作用。因为单向数据传输网络信息发布的特点,单向数据传输网络连接的信息关系多为单向。针对不同的社交媒体数据传播方式,应采用不同的数据挖掘方法针对性进行数据挖掘,综合不同社交媒体数据挖掘结果,建立综合性的社交数据挖掘结果,提高数据挖掘结果的可信权重。

3.结束语:

综上所述,基于社交媒体数据和数据挖掘方法,可以辅助传统应急数据挖掘方式,进一步提取城市突发事件应急管理信息,弥补传统应急数据挖掘方式的局限性。。在数字监控技术被运用到网站分类系统中以后,该系统的应用范围更加广泛,其能够作用于应急警员智慧或者是日常办公处理等多种领域。

参考文献:

[1]奚雪峰,周国栋.面向自然语言处理的深度学习研究E.自动化学报,2016,42(10):1445-1465.

[2]邱均平,方国平.基于知识图谱的中外自然语言处理研究的对比分析[J].现代图书情报技术,2014(⑵:51-61,

[3]王萌,俞士汶,朱学锋.自然语言处理技术及其教育应用[J].数学的实践与认识,2015,45(20):151-156.

[4]王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007(02):35-45.