菜单
  

    7) 哈尔滨工业大学的分词系统是典型的基于统计方法的分词系统。该系统通过将上下文中的词联系起来,并将词频统计与此匹配起来,解决部分中文切分歧义的问题。经测试,该系统的正确率到了97.5%,分词速度为236字/秒。
    8) 北京大学计算语言学研究所实现的中文分词系统,具有分词和词性标注的功能。该系统通过中文的意义规律,统计模型和隐马尔科夫模型将分词和词性标注结合起来进行分词。实验结果显示,系统的分词和标注的速度在Pentium133Hz/16MB的计算机上达到了3000词/秒以上,而在Pentium Ⅱ/64MB的机器上高达5000词/秒以上。
        9) 中科院的中文分词系统。系统提出了一种基于层次隐马尔科夫模型的中文分词方法。系统将中文分词、词性标注、歧义排除和未登录词识别整合到一个理论框架之中。在分词方面,未登录词和字典中收录的普通次进行一样的处理,通过N-最短路径的策略,找回前N个最可能的结果作为获选集合。然后引入隐马尔科夫模型:通过动态规则Viterbi算法标记处全局最优的角色序列,在此基础上,识别出未登录词。
    3  中文分词算法
    3.1  基于字符串匹配的分词方法
        基于字符串匹配的分词方法又叫做机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
    1)最大匹配法(MM)
    MM(THE MAXIMUM MATCHING METHOD)方法的基本思想是:假设自动分词词典中的最长词条所含汉字个数为7,则取被处理材料当前字符串序数中的1个字作为匹配字段,查找分词词典,若词典中有这样的一个7字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个7字词,则匹配失败。匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,进行新的匹配,如此进行下去,直至切分到成功为止。即完成一轮匹配切分出一个词,然后再按上面的步骤进行下去,知直到切分出所有词为止。
    例如现有短语“计算机科学和工程”,假设词典中最长词为7字词,于是先取“计算机科学和工”为匹配字段,来区匹配分词词典,由于词典中没有该词,故匹配失败,去掉最后一个汉字成为“计算机和、科学和”作为新的匹配字段,重新匹配词典,同样匹配失败,取“计算机科学”作为新的匹配字段,来匹配词典,由于词典中有“计算机科学”一次,从而匹配成功,切分出第一个词“计算机科学”。同样的方法可以切分出第二、第三个词,……。
    MM方法据统计错误切分率为1/169.目前,MM方法作为一种基本的方法被肯定下来,但是由于它的错误切分率比较大,故一般不单独使用,而是和其他方法配合使用。
    2)逆向最大匹配法(RMM)
    与MM方法相对应的方法是RMM(THE REVERSE DIRECTIONAL MAXIMUM MATCHING METHOD),也成为RMM方法。它的分词过程与MM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字,RMM方法的精度要高一些,它的错误切分率为1/245。
    如“计算机科学和工程”,首先取“计算机科学和工程”作为匹配字段来匹配分词词典,由于词典中没有该词,故匹配失败。去掉最前面的一个汉字,即取“机科学和工程”作为新的匹配字段,进行匹配,同样的匹配失败,……,最后,取“工程”作为匹配字段,来匹配分词词典,由于分词词典中有“工程”一词,则匹配成功,切分出第一个词“工程”。
  1. 上一篇:基于.net的企业级系统架构的设计与实现
  2. 下一篇:ASP.NET旅游信息服务系统的设计与开发
  1. Justep基于开放平台的企业...

  2. PLC清水坝集控中心自动化...

  3. 网络新闻文本中的命名实体自动抽取研究

  4. C#电子邮件自动发送软件设计与实现

  5. Struts2构件自动测试技术研究及应用

  6. Android答题卡自动批改软件设计

  7. 监控视频序列中运动目标的自动跟踪算法研究

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 杂拟谷盗体内共生菌沃尔...

  10. 十二层带中心支撑钢结构...

  11. 酸性水汽提装置总汽提塔设计+CAD图纸

  12. 中考体育项目与体育教学合理结合的研究

  13. 电站锅炉暖风器设计任务书

  14. java+mysql车辆管理系统的设计+源代码

  15. 大众媒体对公共政策制定的影响

  16. 当代大学生慈善意识研究+文献综述

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回