简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.
简介:简介马端临及其《文献通考·经籍考》,先对《文献通考》及其《经籍考》的古籍刻本及影印本的情况进行梳理,后对今人点校整理本的情况进行分析,认为其历经《经籍考》单行本(1985)、“传世藏书”中的《文献通考》横排简体点校本(1996)及北京中华书局出版竖排繁体点校本(2011)三个阶段.《文献通考》及其《经籍考》从产生并为书目所著录直到最终在官修书目中确立地位,经历了一个漫长曲折的过程,目前学界对《经籍考》的学术价值及其与历代书目之关系的研究还有待提高.
简介:时代复分对于准确著录、标引、检索文献资料有着不容忽视的重要意义。一般来说,设置时代复分各条目划分标准,有按事件划分与不按事件划分,纯粹以整数为单位的时间段划分这两种。《杜威十进分类法》(DeweyDecimalClassification,以下简称DDC)是典型的依后者来划分的。而《中国图书馆分类法》(三版名《中国图书馆图书分