简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。
简介:摘要语言和文化的关系是辩证统一的,翻译过程中蕴含在语言中的文化因素给译者的工作带来了挑战。文章介绍了文化词和文化含义词的各自定义及区别,并对二者在英汉互译中的处理提出了几种方法。
简介:文章以《上海博物馆藏战国楚竹书》中的单音词材料对《汉语大词典》进行了详细的首引书证例补。这有助于汉语史的研究,同时希望为《汉语大词典》的修订提供一些有益的参考。