中国科学院计算机技术研究所的中文分词技术以多层隐马尔可夫模型的汉语词法分析系统ICTCLAS为基础,包括分词、词性标注、命名实体识别和新词识别功能,目前已有ICTCLAS3.0版本,可能是当前最好的汉语词法分析器。
总的来说,还是没有一个系统权威性的分词系统出现,致使中文信息处理遭遇瓶颈[5]。国外的信息处理技术的借鉴也要在对文本进行分词之后。中文是一种相当复杂的语言,对于同一篇文本,不同的人有不同的分词方法。即便是同一个人在不同的时间对同一篇文本的分割也不尽相同。中文表达的复杂性是分词的主要困难,中文中几乎所有的单个的字可以当作词使用,同时它们也可以和其他的字一起组成复合词。复合词在现代中文信息中占有相当重要的地位,很多时候我们很难区分低频复合词是单个的字还是一个词语。词典也不可能涵盖所有的低频复合词。同样的意思可能有很多不同的表达方式,固定的短语、俗语只要稍稍改变词语的位置语义就有可能会发生很大的变化就像“鸡蛋”和“蛋鸡”,更别提还有一些特定名词。