分词技术作为自然语言处理的基本环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难以处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只要提高中文分词系统的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。相信在不久的将来,计算机科学技术的进一步发展能将人类文明推向新的高度。
2 中文分词概述
2.1 中文分词的概念
2.1.1 什么是中文分词
中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓中文分词,指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。[5]我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
比如英语句子“A lazy youth,a lousy age”,中文意思为“少壮不努力,老大徒伤悲”。对于英语句子来说,只有通过空格和标点符号来切分即可,并且不会产生歧义。在中文句子“少壮不努力,老大徒伤悲”中“老大”和“老”、“大”都有可能构成词,要让计算机明白什么时候应该切分出一个词汇,相对于英语来说,难度有质的不同。
中文分词的过程,就是要把一句话中有意义的词汇都切分出来。在“少壮不努力,老大徒伤悲”这句话中,正确的切分应该是“少壮/不/努力,老大/徒/伤悲”。
词是中文中最小的有意义的独立单位,但是这最小的单位却没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互,就必须让计算机能够自然语言。只有当中文字符串组成的句子被准确地转化为词之后,才能继续进一步工作。比如一个中英文翻译系统,如果连词汇都不能正确切分,翻译得到的英文是不可能符合原义的。
在自然语言处理领域,国外大大领先于我国,已经做出很多卓有成效的研究,但是那些研究大多基于西文,并是以正确切分出单词为前提的。如果不能很好地完成中文分词这道工序,就不能采用这些研究成果。
2.1.2 中文分词的意义和作用
要想说清楚中文分词的意义和作用就不能不提到智能技术。智能计算技术涉及的学科包括物理学飞、数学、通讯、电子机械、计算机科学、心理学、进化论和生物学等等。也就是说,所谓智能计算就是让机器“能看会想,能说会讲”。想要实现这样的一个目标,面临的首要任务就是让机器理解人类的语言,只能机器能够理解人类的语言文字,才能使得人与机器之间的交流成为可能。反观我们人类是类使用的自然语言,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文分词来讲,将词汇确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现真正的智能计算机。
从现阶段的实际情况来看,英语已经跨越了分词这一步,也就是说在词的利用上已经先中文一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,才能希望赶上并超越英文在信息领域的发展,所以中文分词意义重大,可以说直接影响到使用中文的每个人的方方面面。 中文自动分词系统设计+文献综述(2):http://www.751com.cn/jisuanji/lunwen_5927.html