菜单
  

    分词技术作为自然语言处理的基本环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难以处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只要提高中文分词系统的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。相信在不久的将来,计算机科学技术的进一步发展能将人类文明推向新的高度。
    2  中文分词概述
    2.1  中文分词的概念
    2.1.1  什么是中文分词
    中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓中文分词,指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。[5]我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
    比如英语句子“A lazy youth,a lousy age”,中文意思为“少壮不努力,老大徒伤悲”。对于英语句子来说,只有通过空格和标点符号来切分即可,并且不会产生歧义。在中文句子“少壮不努力,老大徒伤悲”中“老大”和“老”、“大”都有可能构成词,要让计算机明白什么时候应该切分出一个词汇,相对于英语来说,难度有质的不同。
    中文分词的过程,就是要把一句话中有意义的词汇都切分出来。在“少壮不努力,老大徒伤悲”这句话中,正确的切分应该是“少壮/不/努力,老大/徒/伤悲”。
    词是中文中最小的有意义的独立单位,但是这最小的单位却没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互,就必须让计算机能够自然语言。只有当中文字符串组成的句子被准确地转化为词之后,才能继续进一步工作。比如一个中英文翻译系统,如果连词汇都不能正确切分,翻译得到的英文是不可能符合原义的。
    在自然语言处理领域,国外大大领先于我国,已经做出很多卓有成效的研究,但是那些研究大多基于西文,并是以正确切分出单词为前提的。如果不能很好地完成中文分词这道工序,就不能采用这些研究成果。
    2.1.2  中文分词的意义和作用
    要想说清楚中文分词的意义和作用就不能不提到智能技术。智能计算技术涉及的学科包括物理学飞、数学、通讯、电子机械、计算机科学、心理学、进化论和生物学等等。也就是说,所谓智能计算就是让机器“能看会想,能说会讲”。想要实现这样的一个目标,面临的首要任务就是让机器理解人类的语言,只能机器能够理解人类的语言文字,才能使得人与机器之间的交流成为可能。反观我们人类是类使用的自然语言,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文分词来讲,将词汇确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现真正的智能计算机。
    从现阶段的实际情况来看,英语已经跨越了分词这一步,也就是说在词的利用上已经先中文一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,才能希望赶上并超越英文在信息领域的发展,所以中文分词意义重大,可以说直接影响到使用中文的每个人的方方面面。
  1. 上一篇:基于.net的企业级系统架构的设计与实现
  2. 下一篇:ASP.NET旅游信息服务系统的设计与开发
  1. Justep基于开放平台的企业...

  2. PLC清水坝集控中心自动化...

  3. 网络新闻文本中的命名实体自动抽取研究

  4. C#电子邮件自动发送软件设计与实现

  5. Struts2构件自动测试技术研究及应用

  6. Android答题卡自动批改软件设计

  7. 监控视频序列中运动目标的自动跟踪算法研究

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 杂拟谷盗体内共生菌沃尔...

  10. 十二层带中心支撑钢结构...

  11. 酸性水汽提装置总汽提塔设计+CAD图纸

  12. 中考体育项目与体育教学合理结合的研究

  13. 电站锅炉暖风器设计任务书

  14. java+mysql车辆管理系统的设计+源代码

  15. 大众媒体对公共政策制定的影响

  16. 当代大学生慈善意识研究+文献综述

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回