例如,句子
在古代,人们写信用毛笔。
有两种机械的分法:
1。在 古代 , 人们 写信 用 毛笔 。
2。在 古代 , 人们 写 信用 毛笔 。
当然,我们一眼就能看出第一种分法是合理的。因为我们能够根据汉语的语法,句子的逻辑关系,以及句子所要表达的意思来确定哪一种分词方法是合理的。显然,第一种分词方法符合汉语的语法,而且按照这种分词方法能够正确的理解句子的意思。而在第二种分词方法中,句子则显得无法让人理解,而且在语法上也不合理,毛笔这个词在句子中的成分显得不明确。
在上面的例子中,只要用语法,基本语义等一些规则,就可中医治疗宫颈糜烂的安全性与有效性 以判断一个句子的分词方法是否合理。但是,在一些句子中,单单靠这些还是不够的。
例如,句子
这样的人才能出众。
有三种分词方法:
1。这样 的 人才 能 出众。
2。这样 的 人 才能 出众。
3。这样 的 人 才 能 出众。
在这三种分词方法(三种理解方法)中,可以发现无论从语法,语义还是逻辑结构上,它们都没有任何不合理的地方。那么到底应该如何对这个句子进行分词?难道一句话的三种分词方法都正确吗?
是的,三种分词方法都正确。这个例子就是中文中常常讲起的中文理解的歧义问题。到底应当选用哪一种分词方法就要依据句子所在的上下文环境了。在具体的上下文环境中,我们可以得到其中的一种分词方法。但是,由于中文表达信息的丰富性和不确定性,使得有时即使在确定的上下文环境中,正确的分词方法也不止一种。中医文献视角下产妇的生理特点和养生方法
在人工智能领域中,现在自然语言理解,机器翻译方向十分活跃。在它们所需要解决的一些关键问题中,上面所提及的分词问题就是其中之一。对于第一个例子,只要依赖一个词库,一个语法规则库,加之以简单的语义分析即可解决。但对于第二个例子,实现起来就会十分的困难,至今还没有十分准确,有效的实现方法。本文来自辣;文#论#文~网,加QQ324^9114找源文
由于在中文分词中存在上述的困难,许多系统在实现中文处理系统时干脆就不考虑中文分词,而是把中文信息作为一个一个汉字的排列,即对中文信息实现基于汉字的处理。但是笔者认为,在许多的应用环境中,使用基于词的中文信息处理还是十分必要的。
汉语象其他许多语言一样,其语义的表达是基于词汇的。当我们看到这样的一句话“我现在在计算机系学习”时,我们会很自然的把“现在”,“计算机系”,“学习”抽象出来,作为一个有意义的整体来考虑,而不会去顾及到该词中每个单字的详细意义(对于“我”,“在”等这类单字,可以作为由单个字组成的词语来处理)。这正如在生物学中,虽然细胞是由分子,原子等基本单位构成的,但我们在研究有机体的结构,功能时,总是以细胞作为基本单位一样。既然汉语的表达是建立在词汇的基础之上的,那么在计算机系统对中文进行处理时,就应当考虑到词汇的关键作用。解郁丸治疗更年期情绪障碍患者65例
由于对单个汉字的处理简单,系统实现相对容易,目前大部分中文处理系统都是基于单个汉字的。基于词汇的中文处理系统在实现上相对复杂,但由于它有良好处理性能,目前发展也十分迅速。以中文检索系统为例,基于单个字的系统对所有文章建立全文索引。在检索时得到每个单字的索引,而后加以适当的逻辑运算,得到检索结果。而基于词汇的检索系统对词汇建立索引。检索词汇时一次命中,没有烦琐的逻辑运算,速度十分的快。在检索结果的全面性上基于单字的检索要优于基于词汇的检索,但在结果的相关性上基于单字的检索要差于基于词汇的检索,另外在检索速度上要基于单字的检索要慢一些。