简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。
简介:<正>语言具有系统性。组成语言的三大要素中,语音语法的分统性已是公认的,词汇的系统性尽管至今仍有争论,但也已为越来越多的人所认识和研究。本文不打算纠缠词汇系统性的存在与否,而是以承认它的存在为前提,来探讨一下其中的几个问题。一词族词汇系统实际上是词汇的意义结构系统。按照词与词之间的意义上的各种不同的联系,我们可以把词汇中的词进行分类。这样分出来的类,有人把它叫做类聚。实际上,如果用共时和历时两方面的观点进行深入的分析,分出来的各个类的内部的及类与类之间又可以找出其中的联系。因此,词汇系统在一定程度上讲,象人类社会的族系一样,它们之间的关系
简介:在我们的小学数学中,经常有填空格的题,就是在算式的空格中填上合适的数,使所给的算式成立。在解这种题时,我们要仔细分析,考虑多种情况,从容易填写的地方入手,作为解题的突破口。下面,我讲讲怎样解乘法和除法算式题。