中文自动分词系统设计+文献综述(6)

7）哈尔滨工业大学的分词系统是典型的基于统计方法的分词系统。该系统通过将上下文中的词联系起来，并将词频统计与此匹配起来，解决部分中文切分歧义的问题。经测试，该系统的正确率到了97.5%，分词速度为236字/秒。
8）北京大学计算语言学研究所实现的中文分词系统，具有分词和词性标注的功能。该系统通过中文的意义规律，统计模型和隐马尔科夫模型将分词和词性标注结合起来进行分词。实验结果显示，系统的分词和标注的速度在Pentium133Hz/16MB的计算机上达到了3000词/秒以上，而在Pentium Ⅱ/64MB的机器上高达5000词/秒以上。
9）中科院的中文分词系统。系统提出了一种基于层次隐马尔科夫模型的中文分词方法。系统将中文分词、词性标注、歧义排除和未登录词识别整合到一个理论框架之中。在分词方面，未登录词和字典中收录的普通次进行一样的处理，通过N-最短路径的策略，找回前N个最可能的结果作为获选集合。然后引入隐马尔科夫模型：通过动态规则Viterbi算法标记处全局最优的角色序列，在此基础上，识别出未登录词。
3 中文分词算法
3．1 基于字符串匹配的分词方法
基于字符串匹配的分词方法又叫做机械分词方法、基于字典的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功(识别出一个词)。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
1）最大匹配法（MM）
MM（THE MAXIMUM MATCHING METHOD）方法的基本思想是：假设自动分词词典中的最长词条所含汉字个数为7，则取被处理材料当前字符串序数中的1个字作为匹配字段，查找分词词典，若词典中有这样的一个7字词，则匹配成功，匹配字段作为一个词被切分出来；如果词典中找不到这样的一个7字词，则匹配失败。匹配字段去掉最后一个汉字，剩下的字符作为新的匹配字段，进行新的匹配，如此进行下去，直至切分到成功为止。即完成一轮匹配切分出一个词，然后再按上面的步骤进行下去，知直到切分出所有词为止。
例如现有短语“计算机科学和工程”，假设词典中最长词为7字词，于是先取“计算机科学和工”为匹配字段，来区匹配分词词典，由于词典中没有该词，故匹配失败，去掉最后一个汉字成为“计算机和、科学和”作为新的匹配字段，重新匹配词典，同样匹配失败，取“计算机科学”作为新的匹配字段，来匹配词典，由于词典中有“计算机科学”一次，从而匹配成功，切分出第一个词“计算机科学”。同样的方法可以切分出第二、第三个词，……。
MM方法据统计错误切分率为1/169.目前，MM方法作为一种基本的方法被肯定下来，但是由于它的错误切分率比较大，故一般不单独使用，而是和其他方法配合使用。
2）逆向最大匹配法（RMM）
与MM方法相对应的方法是RMM(THE REVERSE DIRECTIONAL MAXIMUM MATCHING METHOD)，也成为RMM方法。它的分词过程与MM方法相同，不过是从句子（或文章）末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字，RMM方法的精度要高一些，它的错误切分率为1/245。
如“计算机科学和工程”，首先取“计算机科学和工程”作为匹配字段来匹配分词词典，由于词典中没有该词，故匹配失败。去掉最前面的一个汉字，即取“机科学和工程”作为新的匹配字段，进行匹配，同样的匹配失败，……，最后，取“工程”作为匹配字段，来匹配分词词典，由于分词词典中有“工程”一词，则匹配成功，切分出第一个词“工程”。中文自动分词系统设计+文献综述(6):http://www.751com.cn/jisuanji/lunwen_5927.html