Chinese New Word Identification: A Latent Discriminative Model with Global Features

在线阅读 下载PDF 导出详情
摘要 中国新词在中国自然语言处理是特别地有问题的。与因特网和信息爆炸的快开发,在中国自然语言处理为应用程序得到一本完全的系统词典是不可能的,当从字典的新词总是正在被创造。新词鉴定并且POS标注的过程通常被分开,词汇信息的特征不能充分被使用。没有被预先分割,一个潜伏的歧视的模型,联合潜伏的动态有条件的随机的地(LDCRF)和semi-CRF的力量,被建议从中国文本不管新词的类型同时地和他们的POS检测新词。不同于semi-CRF,在建议潜伏的歧视的模型,LDCRF被使用产生候选人实体,它加速训练速度并且减少计算费用。建议隐藏的semi-CRF的复杂性能被从LDCRF的产量建模的Nbest调节隐藏的变量的数字和候选人实体的数字进一步调整。一个new-word-generating框架为模型训练并且测试被建议,在哪个下面新词的定义和分布在真实文本遵循。全球特征叫了全球碎片特征因为新词鉴定被采用。我们从SIGHAN-6在语料库上测试了我们的模型。试验性的结果证明建议方法能够检测甚至低的频率和他们有令人满意的结果的POS标签的新词。建议模型与最先进的模型一起竞争地表演。
机构地区 不详
出版日期 2011年01月11日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献