简介:文章从新的角度定义了索引的概念。认为索引编纂不仅从文献中抽取原有字词等作为标目词,也有将文献中文意概括归纳主题词语作为标目词的做法。学术著作书后索引,应该是二者相结合,以便节省篇幅而又全面深入揭示书中内容。编纂学术著作书后索引的原则是:内容全覆盖的主题词语;主题词语条目下适当加注;科学合理的参见系统。
简介:《滇南诗略》与《滇南文略》分别是清代云南重要的历代诗、文汇编。《滇南文略》的编者在辑《滇南诗略》时,兼顾《滇南文略》材料的搜罗,而编刻稍为滞后,《滇南诗略》的成书极大地推动了《滇南文略》的纂辑。《滇南文略》的编排体例主要有四个特点:不求备体,而是分门别类以求古;文体排列顺序体现"尊君尊经"、"义正事公"的思想;对未见之文不下断言,留有余;评点的选择标准不注重照官爵、行辈之先后,而以评点之精当与否为准。《滇南文略》的文章评点主要包括眉批、行间评语、跋语等类型,不少评语清楚地交代了所收文章的不同来源。其编排体例合理,文章评点独到,搜罗广泛,成为后来编纂云南相关文集的材料来源和总集编纂的范例。
简介:总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的-般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本分类的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.
简介:在对相关研究情况进行总结与分析的基础上,通过对HowNet情感词典进行扩展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中获取的评论内容进行分析,结果表明,基于HowNet和PAT树的情感分析方法对分析网购评论的情感倾向性行之有效,并以淘宝-女装商家为例进行实证研究,最后指出进一步探索情感倾向性分析的几个方向.