菜单
  

    汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。”我们还知道,“词是最小的能够独立活动的有意义的语言成分。”计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。切词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢复文本中原有的空格符。实际上,这就是汉语词语的识别过程。分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料,因此分词的速度和分词算法的易实现性变得相当关键。

    2.1.3中文分词的应用

    中文分词技术主要应用于信息检索,汉字的智能输入,中外文对译,中文校对,汉字简繁体转换,自动摘要,自动分类,机器翻译,语音合成等很多方面[2]。“没有中文分词,其他一切深入的中文信息处理都无从谈起。”下面以文本信息输入,文本检索为例来说明中文分词的应用。

    1)拼音输入中的同音词自动辨识。据统计:汉语单字同音现象非常严重,以6763个汉字为例,无同音字的汉字只有16个,其中最多的有116个同音字.相比而言,汉语词的同音现象则有很大改善,以)52505的词表为例,其中,35942个词语没有同音词,因此大多数同音字可以依靠词来确定。如“一只漂亮的铅笔”“zhi”的同音字有“只,枝,直,之”等,但这里“只”与“笔”合理搭配。又如“yi”对应的同音字“以,一,已,意易,衣”等。可以在“以为,已经,一定,容易,衣服”中来确定。由此看出:分词对同音词自动辨识所起的作用。

    2)汉语的多音字自动识别。汉语中也存在着大量的多音字,计算机对他们的识别也需要扥词的帮助。如“校,重,行,乐,率,分”等多音字,无论是拼音自动标注还是语音合成都需要识别出正确的拼音,而多音字的辨别可以利用词以及句子中前后词预警,即上下文来实现。如以上几个字在以下几组词中得意定音:“学校/校对、行列/行进、重量/重新、快乐/音乐、率领/效率、分别/水分。”

    3)互联网信息的有效搜索。近几年来,互联网的信息急剧膨胀,各类信息混杂在一起,要想充分多的利用这些信息资源就要对他们进行整理。如果由人来整理如此海量的信息,那是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果则由于古语粗糙而导致资源浪费的不可用。如“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有和服,却被当做同一类来处理,结果是检索“和服”的相关信息,他们的相关信息都会被检索到。在信息量很少的情况下,似乎还能忍受,如果是海量的信息,这样的结果会令人讨厌。实践表明,通过引入分词技术,就可以是计算机相对海量信息的整理更加的准确合理。

    2.1.4中文分词系统的性能指标

    自动分词系统的最核心的工作是进行分词。对于一个实用化的分词系统而言,不仅要求在分词速度和分词精度方面满足一定的要求,而且要像开发大型传统软件那样,在各个阶段不断地进行评价,其目的主要是检查它的准确性和实用性,分词系统的性能指标主要有以下几个方面:

  1. 上一篇:基于python的虚拟仪器技术研究及实现
  2. 下一篇:火炮弹道参量数据库设计
  1. 基于MATLAB的图像增强算法设计

  2. 基于Kinect的手势跟踪与识别算法设计

  3. JAVA基于安卓平台的医疗护工管理系统设计

  4. 基于核独立元分析的非线...

  5. 基于Hadoop的制造过程大数据存储平台构建

  6. 基于安卓系统的测量软件...

  7. 基于VC++的GIS矢量图形系统开发

  8. 机器人摩擦焊机头设计

  9. 探讨“绿色生态”在都市设计中的体现

  10. 合肥老乡鸡连锁餐饮企业的经营策略探析

  11. 分光光度法测定水溶液中有机酸含量的研究

  12. 带式输送机技术英文文献和中文翻译

  13. 圆柱绕流国内外研究现状

  14. 公共服务均等化文献综述和参考文献

  15. 《简爱》女性主义的象征

  16. 文化旅游主题展示设计广富林十里长街设计

  17. 新生代农民工培训现状分析

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回