简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。
简介:本文采用纸笔测验方法探讨了中级水平留学生对部件熟悉的陌生形声字的语音提取特点.结果表明,字的类型、声旁位置和形旁可命名性影响中级水平留学生对部件熟悉的陌生形声字的语音提取,具体表现为:规则字的命名成绩好于不规则字;声旁在右的汉字命名成绩好于声旁在左的汉字,形旁不可命名的汉字命名成绩好于形旁可命名的汉字.当陌生形声字的形旁不可命名时,中级水平留学生对整字的命名更倾向于利用声旁信息;形声字声旁在右时,利用可单独命名的声旁命名整字的可能性更大;当形旁可命名时,声旁的语音线索与形旁的语音线索存在竞争.中级水平留学生对部件熟悉的陌生形声字语音提取主要采用“读声旁”、“读形旁”和“类比”三种策略,尤其以“读声旁”和“读形旁”等“读半边”策略为主.