毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

基于K-means的文本聚类算法研究 第5页

更新时间:2012-2-12:  来源:毕业论文
(4)语法分析法
引入语法分析法的背景与约束矩阵法相同,它们的不同之处在于前者通过语法规则给出全局约束,而后者仅通过约束矩阵给出局部约束。语法分析法是把语法分析系统和分词系统融为一体的一种更好的分词方法。语法分析法的基本思想是:事先建立一套汉语语法规则,其中的规则不但给出某成份的结构(即它由哪些子成份构成),而且还给出它的子成份之间必须满足的约束条件。另外,事先还要建立一个词库,其中包含所有可能出现的词和它们的各种可能的词类。对给定的待分词的汉语句子S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则从词库中取出该词的所有词类,然后根据语法规则进行语法分析(包括语法分析树的构造和约束条件的检查,这时不但要使用该词的所有词类,而且还要使用前面己分析部分的结果)。若分析正确,则该子串是词,记下语法分析的结果作为后继切分的基础,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,重新切取s的子串进行匹配。语法分析法首先要确定语法规则的内部表示。为了加快分析速度,可以将语法规则库细分。每个子库中的规则又可以按照词汇的出现频率排列。一条规则实际上就是一个产生式加上一个关于该产生式右部分分量的约束条件。约束条件可以用布尔函数来实现。语法分析法是自然语言形式的结果,是用计算机分析和处理自然语言的前提和基础。到目前为止,理论结果和实际需要之间还有很大距离。具体体现在:为描述和处理自然语言而提出的形式语法规则还不能完全覆盖丰富多彩的自然语言现象。因而,语法分析法的应用不可避免有其局限性。理想的系统应用应为语法规则的增删和修改提供手段。另外,语法分析法要求保留分析时产生的所有中间结果,因此开销很大。不过,由于分词的最终结果包括一棵语法分析树,所以后继处理中就不必再进行语法分析了。
(5)理解切分法本文来自辣-文~论^文.网原文请找腾讯32491'14
理解切分法是一种具有“理解”成分的切分法。它更注重了语言的整体性。它与语法分析法的关系是,后者是前者的基础。但是,除了进行语法分析外,它还要进行语义分析。理解切分法的基本思想是:事先建立一个词库,其中包含所有可能出现的词和它们的各种语义信息。对给定的待分词的汉语句子S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则从词库中取出该词的所有语义信息,然后调用语义分析程序进行语义分析(包括形成理解结果和检查约束条件,这时不但要使用该词的所有语义信息,而且还要使用前面己分析部分的理解结果)。若分析正确,则该子串是词,记下理解结果作为后继切分的基础,继续分割剩余部分,直到剩余部分为空;否则,该子串不是词,重新切取S的子串进行匹配。
2.1.3.2 Stemming论文网http://www.751com.cn/  
Stemming的操作主要是针对英文文本的。在英文中,由于时态语态的不同,同一个单词有不同的变形,比如单词“combine”,它有分词形式“combined”,动名词形式“combining”,第三人称单数形式“combines”,以及名词形容词形式“combination”,“combinative”等。某一单词的各种形式都有可能在某一文本中出现,如果把各种变形作为不同的词来看待,无论在关键词(也称作特征词)的选择中,还是在相似度的计算中,势必会影响聚类的质量。
所以,对各种时态语态的英文单词,需要对其进行词干还原的处理,以使得文本内容更加明确集中,以保证聚类质量。各种文献中经常采用的stemming方法,是 Stuart J.Barr提出的Porte方法。该方法利用英文单词中的一些普遍规则进行词干还原。例如还原后缀“biliti”,为“ble”等等。单词“combine”各种变形经过porter进行Stemming后的结果如下:
combined->combin,combining->combin,combines->combin,combination->combin,combinative->combin,经过如此处理,文本中的相关词意得到了集中,有利于特征选择和相似度的计算。
2.1.3.3停用词处理
无论在汉语还是在英语中,都存在一些对文本内容识别意义不大的词,在文本挖掘中,称之为停用词 (stop word)。这些词没有什么意义,而且在各类文本中出现的频率都很高,在特征选择或者计算相似度的过程中会引入很大的误差,可以看作是一种噪音。最简单的例子是汉语中“的”这个字,以及英语中“of”这个词。他们没有具体的意义,不能体现文本所表示的内容,但在几乎所有的文本中都会出现,如果在聚类过程中考虑到这些词,那么文本之间的相似性不能表现出内容的相似性,而是一些无意义的相似性,这不是我们所希望的。在本文的实际应用中,定义中文的停用词的集合为“的了是在有我个他就这着上说和也你到里来都还把去又看要很能十么”,这些词的挑选是根据他们在各种文本中出现的频率而给出的。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

基于K-means的文本聚类算法研究 第5页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©751com.cn 辣文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。