毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

中英文发现系统(搜索引擎)的转接层子系统、索引子系统的设计与实现 第4页

更新时间:2016-7-24:  来源:毕业论文
中文的另一个特点是语言的书写方式。在英文的书写中,词语之间以空格作为天然的分隔符,使得每个单词都一目了然。中文则仅仅以标点符号分隔句子,词语之间没有任何分隔符,这使得对中文词汇的划分成为一件困难的事情。

 例如,句子
  在古代,人们写信用毛笔。

 有两种机械的分法:
 1。在 古代 , 人们 写信 用 毛笔 。
 2。在 古代 , 人们 写 信用 毛笔 。

 当然,我们一眼就能看出第一种分法是合理的。因为我们能够根据汉语的语法,句子的逻辑关系,以及句子所要表达的意思来确定哪一种分词方法是合理的。显然,第一种分词方法符合汉语的语法,而且按照这种分词方法能够正确的理解句子的意思。而在第二种分词方法中,句子则显得无法让人理解,而且在语法上也不合理,毛笔这个词在句子中的成分显得不明确。

 在上面的例子中,只要用语法,基本语义等一些规则,就可中医治疗宫颈糜烂的安全性与有效性 以判断一个句子的分词方法是否合理。但是,在一些句子中,单单靠这些还是不够的。

 例如,句子
  这样的人才能出众。

 有三种分词方法:
 1。这样 的 人才 能 出众。
 2。这样 的 人 才能 出众。
 3。这样 的 人 才 能 出众。

 在这三种分词方法(三种理解方法)中,可以发现无论从语法,语义还是逻辑结构上,它们都没有任何不合理的地方。那么到底应该如何对这个句子进行分词?难道一句话的三种分词方法都正确吗?

 是的,三种分词方法都正确。这个例子就是中文中常常讲起的中文理解的歧义问题。到底应当选用哪一种分词方法就要依据句子所在的上下文环境了。在具体的上下文环境中,我们可以得到其中的一种分词方法。但是,由于中文表达信息的丰富性和不确定性,使得有时即使在确定的上下文环境中,正确的分词方法也不止一种。中医文献视角下产妇的生理特点和养生方法

 在人工智能领域中,现在自然语言理解,机器翻译方向十分活跃。在它们所需要解决的一些关键问题中,上面所提及的分词问题就是其中之一。对于第一个例子,只要依赖一个词库,一个语法规则库,加之以简单的语义分析即可解决。但对于第二个例子,实现起来就会十分的困难,至今还没有十分准确,有效的实现方法。本文来自辣;文#论#文~网,加QQ324^9114找源文

 由于在中文分词中存在上述的困难,许多系统在实现中文处理系统时干脆就不考虑中文分词,而是把中文信息作为一个一个汉字的排列,即对中文信息实现基于汉字的处理。但是笔者认为,在许多的应用环境中,使用基于词的中文信息处理还是十分必要的。

 汉语象其他许多语言一样,其语义的表达是基于词汇的。当我们看到这样的一句话“我现在在计算机系学习”时,我们会很自然的把“现在”,“计算机系”,“学习”抽象出来,作为一个有意义的整体来考虑,而不会去顾及到该词中每个单字的详细意义(对于“我”,“在”等这类单字,可以作为由单个字组成的词语来处理)。这正如在生物学中,虽然细胞是由分子,原子等基本单位构成的,但我们在研究有机体的结构,功能时,总是以细胞作为基本单位一样。既然汉语的表达是建立在词汇的基础之上的,那么在计算机系统对中文进行处理时,就应当考虑到词汇的关键作用。解郁丸治疗更年期情绪障碍患者65例

 由于对单个汉字的处理简单,系统实现相对容易,目前大部分中文处理系统都是基于单个汉字的。基于词汇的中文处理系统在实现上相对复杂,但由于它有良好处理性能,目前发展也十分迅速。以中文检索系统为例,基于单个字的系统对所有文章建立全文索引。在检索时得到每个单字的索引,而后加以适当的逻辑运算,得到检索结果。而基于词汇的检索系统对词汇建立索引。检索词汇时一次命中,没有烦琐的逻辑运算,速度十分的快。在检索结果的全面性上基于单字的检索要优于基于词汇的检索,但在结果的相关性上基于单字的检索要差于基于词汇的检索,另外在检索速度上要基于单字的检索要慢一些。

上一页  [1] [2] [3] [4] 

中英文发现系统(搜索引擎)的转接层子系统、索引子系统的设计与实现 第4页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©751com.cn 辣文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。