简介:由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。
简介:随着计算机技术被引进到民国档案工作中,以期实现快速、准确的机检,对民国档案进行著录标引就成了民国档案工作者的共识和一致行动。早在八十年代,全国各级档案馆便先后开展了这项工作,并取得了可喜的成绩,但和我们的目标———真正建立健全我国统一的民国档案检索系统仍有相当的距离。而要实现这一目标,仍有许多问题值得我们深入研究,进一步总结经验教训,以调整、改进原有的工作方法。关于民国档案著录项目的认识就是其中问题之一,笔者拟就民国档案著录项目相互间关系及其对民国档案著录标引的影响作如下探讨。所谓著录项目是揭示档案内容和形式特征的记录事项,它构成检索条目的内容,是为满足计算机检索系统一次输入,多种输出的要求,