为了查询方便,RMM方法要求配备逆序的分词词典,这样的分词词典文护起来比较困难(不符合人们习惯)。虽然它的精度比较高,但在目前已有的分词系统中,没有一个系统使用这种方法。
3)逐词遍历法
该方法是把词典中的词按由长到短的顺序逐个搜索匹配整个待处理材料,直到把所有的词都切分出来为止。
如“他睡觉打鼾”,利用该方法切分这一句话,不论分词词典多大,都得把整个分词词典匹配一遍,故这种方法的时间复杂度比较高,是一种不可使用的分词方法。
4)设立切分标志法
在汉语中存在着许多自然切分标志,如表单符号等,词不能跨越这些标点存在。另外存在一些分自然切分标志,如只能充当词首字或词尾的字、不构词的单字词、复音节单纯词、拟声词等,词不能跨越这些标志而存在。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分成一些较短的字段,然后用MM方法或RMM方法进行细分。这种分此方法后期处理时由于匹配长度较短,减少了比较次数,不过开始阶段寻找切分标志又增加了分词的时间复杂度。另外非自然切分标志随着词典中手机的词和字的个数而变动。词典中增加了一些词但是没有增加新字,可能减少非自然切分标志,增加了一些新字,但由于没有能够及时地增加相应的词,可能会增加非切分标志的数量。
如对于短语“这种设计方法学的理论,不可能有用”,由于“的”是非自然切分标志,从而该方法把这个句子首先切分为“这种设计方法学/的/理论/,/不可能有用”,然后再使用MM方法或RMM方法把他们加以细分成“这/种/设计/方法学/的/理论/,/不/可能/有/用”。
其实,“设立切分标志”并不是真正意义上的一种分词方法,只不过是自动分词的一种前处理方式而已。而且这种处理并没有提高分词精度,却要额外消耗时间扫表切分标志,增加分词的时间复杂度,另外要花费存储空间存放那些所谓的非自然切分标志,而是利用一些自然切分标志进行处理。OM方法和二次扫描法都比该力切分标志法速度快。
5)最佳匹配法(OM)
OM(THE OPTIMUM MATCHING METHOD)方法分为正向最佳匹配法和逆向最佳匹配法。最佳匹配法的出发点,在词典中按词频的大小顺序排列词条,以求缩短分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种分词方法是预先对分词词典进行处理,而不是一种纯粹意义的分词方法。OM方法的分词词典每条词前面必须有指明长度的数据项,所以OM方法的空间复杂度稍有增加。OM方法虽然降低了分词的时间复杂度,但是并没有提高分词精度。
由上面的算法,不难看出基于字符串匹配的分词方法的优缺点:
优点:简单,易于实现。
缺点:1)匹配速度慢;2)存在交集型和组合型歧义切分问题;3)词本身没有一个标准的定义,没有统一标准的词集;4)不同词典产生的歧义也不同;5)缺乏自学习的智能性。
3.2 基于理解的分词方法
基于理解的分词方法又称基于人工智能的分词方法,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 中文自动分词系统设计+文献综述(7):http://www.751com.cn/jisuanji/lunwen_5927.html