极大规模词语搭配库的建造和构成分析

(整期优先)网络出版时间:2011-03-13
/ 1
大规模词语搭配库的建造在自然语言处理领域的诸多方面都有着迫切的需求。本文利用哈工大、伯克利、斯坦福三所大学分别研制开发的三个句法分析器,对9年《人民日报》语料进行了句法分析,通过对三个分析结果的合并比对得到候选搭配;在此基础上通过参数及类型优选进一步提升搭配精度,最终得到规模约为136万的搭配型数据及相关统计信息并以此构建了词语搭配库。词语搭配库中包含了6种常见类型的搭配数据,并且保证了较好的正确率,可以为其它相关工作提供可靠的数据支持。