基于大数据对专利信息的分析

(整期优先)网络出版时间:2020-06-29
/ 2

基于大数据对专利信息的分析

宁如花

国家知识产权局专利局专利审查协作广东中心 广东省广州市 510000

摘 要:大数据时代已经到来,发达国家多已进行政府大数据管理,我国政府也应把握这一机遇,尤其是在信息数据资源急速增长的知识产权领域。由于经济飞速发展和科技的不断创新,商标和专利等数据激增。目前对于知识产权的保护技术和管理水平已无法满足现代社会的要求。本文基于大数据对专利信息进行了相应的分析,以供参考。

关键词:大数据;专利信息;专利分析

1大数据概述

大数据是近来的一个技术热点,但从名字就能判断出来它并不是什么新词。毕竟,大数据是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。

首先,大数据要对数据抽取与集成。大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来了极大的挑战。要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。现有的数据抽取与集成方式可以大致分为以下4种类型:数据整合、数据联邦、数据传播和混合方法等。

数据分析是大数据的处理核心。传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战:例如,数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多;大数据时代的算法需要进行调整。

虽然数据分析是大数据处理的核心,但是用户往往更关心结果的展示,这就需要数据解释。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行,可以考虑引入可视化技术,提升数据解释能力,让用户能够在一定程度上了解和参与具体的分析过程。

然而,大数据作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无限传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互……要处理的数据量太长,增长太快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。在这种情况下,技术人员纷纷研发和采用了一批新技术。

2基于大数据对专利信息的深度分析

随着科学技术的迅速发展,国内外企业之间的竞争日趋激烈。企业要想在竞争中立于不败之地,就一定要具备技术能力,要抢先参与开发新技术、获取和利用新技术的竞争。专利是世界上最大的技术信息源,但如此巨大的信息资源却远未被人们充分利用。因此,只要应用大数据对其进行分析和挖掘,便可以实现其特有的经济价值。

2.1大数据分析与传统数据分析的区别

大数据分析与传统的数据分析方法(如查询、报表、联机应用分析)的本质区别是大数据是在没有明确假设的前提下去挖掘信息、发现知识。大数据所得到的信息应具有先未知、有效和可实用3个特性。

(1)“先未知”性是指该信息是预先未曾预料到的,即大数据是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料就可能越有价值。

(2)“有效”性指的是大数据是面向海量数据的,而任何传统的统计、分析方法对此则是束手无策的,因此可以说大数据技术为解决“数据爆炸但知识贫乏”的问题提供了出路。

(3)“可实用”性是指大数据技术已经不再是“实验室里的玩具”。大数据利用现代的软件技术和计算机技术,把对于普通用户来说是高深复杂的技术封装起来;并且可以利用多种技术的结合实现传统分析方法所不能完成的内容,具有方便快捷、可视化程度高的优点。

2.2大数据分析拓展专利信息分析的深度和广度

基于大数据技术的专利信息分析即以专利数据以及期刊文献为研究对象,将专利信息的技术内容集成化、数据化、然后进行加工和分析、识别有效的、新颖的、潜在有用的,以及最终可理解的知识的过程。大数据分析就是在现有分析方法上架设了一个800万倍显微镜,并可以进行更深、更细微层次的系统性分析。

用此方法处理专利信息,易于综合地把握大量专利信息。实际应用中,大量的应用大数据技术的目的是搜集、分析特定技术或产品的专利信息,掌握该专利领域中不同公司的专利技术研究情况,并把每个单一的情报综合起来,然后采取统计分析、技术群组、文本挖掘、组合理论、专利地图等技术,对其进行信息分析,并以统计图谱、关联图谱和报告等形式展现出来,即通过复杂计算,发现隐藏在大数据中的各种潜在相关模式,而这些淹没在近于无穷的大数据中的相关模式是无法被人通过有限的检索策略与传统分析方法发现的。

2.3大数据分析专利信息的流程

基于大数据的专利信息分析过程包括专利申请数据的获取、数据预处理、数据重构,以及数据分析。

2.3.1数据获取

可通过中国知识产权局网站,专利商业网站patentics,incopat等获取专利申请数据作为数据来源,将所需的某个公司或者某个技术领域的申请数据进行提取,导出,保存,以便为后续处理使用。

2.3.2数据预处理

数据清理是大数据分析的必要环节,由于数据在传输过程中极易受到造势数据、空缺数据和不一致数据的侵扰,若不进行数据清理则建立的数据库的可用性将大大降低,而以此数据库进行的数据挖掘得到的分析结果质量将难以保障。通过各种转换方法将数据转换成有效形式,为今后的数据挖掘做好了准备工作。同时,通过数据转变,可以对数据做简单的泛化处理。

2.3.3数据重构

数据重构就是将在数据挖掘过程中获取的海量数据经过融合和集成,形成一个庞大而又复杂的本地数据库,在对数据进行分析之前存在一个中间过程。此中间过程即为根据分析需求,通过概念理解、生成规则、方法选取、最后是算法实现,将原始数据重构或者提炼一个数据全面、准确而又合乎分析需求的数据库的过程。

2.3.4基于文本大数据技术的专利分析项目

(1)专利申请类型分析。我国的专利申请有发明专利、实用新型、外观设计专利3种。对这3种不同类型的专利申请所占的份额加以比较,可以帮助判断该领域技术的发展情况。

(2)专利申请量分析。专利申请量在一定程度上讲是市场需求的表现,针对申请量的逐年变化情况进行统计分析,对了解技术的发展和市场需求情况均有裨益。

(3)技术构成分析。通过分析专利涉及的所有IPC分类号,以及这些IPC分类号下分别包括的专利数量,就能获知整个区域的技术构成情况,以及该区域内市场经营主体关注的技术热点。

(4)时间趋势分析。是在上述技术构成分析的基础上加入了时间维度所形成的一种分析方法,即考察不同IPC分类号下或不同技术分类、技术效果等领域内的专利数量随时间的分布情况,由此绘出的专利地图可以直观地判断技术发展的潮流趋势和发展状况。

(5)关联分析。目的是找出专利情报中隐藏的有趣的关联网,描述一组专利之间的密切度。具体操作方法包括关联矩阵和基于距离测度理论的关联图。

2.3.5知识表示

将分析结果以用户容易理解的方式(关联图和统计表)把挖掘到的知识呈现出来,使用户可洞察最前沿的科研动态,迅速把握特定技术发展的方向,准确预测未来技术创新的趋势。

4结束语

大数据时代的到来为专利分析提供了新的技术工具和技术思路,这对于从业者来说既是挑战又是机遇。未来,专利分析的重要研究方向是充分利用大数据分析,提高专利分析的用户体验,对专利信息进行数据挖掘和可视化预测。

参考文献

[1]赵向阳,王亮,梁晨陇.基于专利数据的大数据技术发展研究[J].软件,2017,38(08):190-196.

[2]汪满容,刘桂锋,孙华平.基于专利地图的全球大数据技术竞争态势研究[J].现代情报,2017,37(01):148-155.