您现在的位置：毕业论文 >> 论文 >> 正文

基于K-means的文本聚类算法研究第4页

更新时间：2012-2-12: 来源：毕业论文

2.1.3.1分词
我们知道，英文文章中的词是独立的，词与词之间有空格作为划分，而中文文章中词与词之间是连续的，他们之间不存在着明显的划分，因此中文自然语言处理过程中一个必不可少的步骤就是分词。常用的分词方法有:机械匹配法、特征词库法、约束矩阵法、语法分析法及理解切分法[3]
(1) 机械匹配法
机械匹配法的基本思想是:事先建立一个词库，其中包含所有可能出现的词。对给定的待分词的汉字串S，按照某种确定的原则切取S的子串，若该子串与词库中的某词条相匹配，则该子串是词，继续分割剩余部分，直到剩余部分为空;否则，该子串不是词，重新切取S的子串进行匹配。
机械匹配法分类本文来自辣-文~论^文.网原文请找腾讯3249,114
①根据切取子串的方向，机械匹配法又分为正向匹配法和逆向匹配法。实验表明，逆向匹配法的切分正确率略高于正向匹配法。论文网http://www.751com.cn/
②根据每次匹配时优先考虑长词还是优先考虑短词，机械匹配法又分为最大匹配法和最小匹配法。
③根据匹配不成功时重新切取的策略，机械匹配法又分为增字法和减字法。增字法一般与最小匹配法相结合，减字法一般与最大匹配法相结合。增字法面临一个问题是增到什么程度的问题，如果长度过大可能浪费很多时间，如果过短又可能漏掉词语，一般将此长度定义为词库中最长词汇的长度。两种分词策略各有利弊，因为句子中长词毕竟很少，所以减字法效率比较低，但是它可以确保句子中切分的词汇数量最少，而增字法和它正好相反。在各种机械匹配法中，值得推崇的是所谓的最短路径法。这种方法将分词问题归结为图论中的最短路径问题，即一个词汇对应一条有向边，词的一个序列对应一条有效路径。这样就可以采用图论中的有关算法来求解。这种算法的本质是使一个句子切分以后它的词汇数量最少。如果说最大匹配法是一种局部最优法，那么，最短路径法则是一种全局最优法。
(2) 特征词库法
特征词库法的基本思想是:事先建立一个特征词库，其中包含各种具有切分特征的词。对给定的待分词的汉字串S，首先根据特征词库将S分割为若干个较短的子串，然后对每个子串分别采用机械匹配法进行切分。特征词库法是基于这样的理论:汉语中有一些形态标志为汉语的切分提供了重要的依据，因此在切分词语时应该充分利用。例如，各种词缀(前缀或后缀)、虚词和重叠词等。这些词的数量虽然有限但是使用频率却较高，所以这种切分方法也是很有效。不同类型的特征词，处理方法也不同，所以特征词库中的词汇不但要记录词汇的内部表示，而且还要记录它的类型。特征词库的规模一般不大，往往可以一次调入内存，并且可以按照词汇使用频率从高到低排列，每次搜索从前向后进行。特征词库中的词汇往往是对若干词汇的抽象，这些词汇的切分得到了统一处理。这样，在机械匹配法的词库中不需要包含这些词，既节约了空间又加快了查找速度。上面给出的两种分词方法的一个共同的特点就是孤立地考虑词的形式。然而，出现在汉语中的每个词汇除了具有形式之外，还具有词性和词义。此外，相邻词汇的词性和词义必须是相容的，否则就会不合语法或不合逻辑。换句话说，汉语中相邻词汇的词性和词义之间必须满足一定的约束关系，这些约束关系是判断自动切分结果正确与否的重要依据，必须设法体现在分词方法中。下面将要给出的方法就是沿这条思路对前面给出的方法的改进。
(3)约束矩阵法
约束矩阵法是为了避免汉语中的歧义而提出来的。所谓的歧义切分是指相同的句子被切分成不同的词汇集合。典型的歧义切分包括交集型歧义切分和组合型歧义切分。交集型歧义切分是指形为ABC的汉字串既可以切分成AB/C，又可以切分成刀BC。如“硬气功”即可以切分为“硬/气功”，又可以切分为“硬气/功”。所谓组合型歧义切分是指形为AB的汉字串可切分成AB，又可切分成A/B。如汉字串“然而”既可以切分成“然而”，又可以切分成“然/而”。本文来自辣-文~论^文.网原文请找腾讯32,49114
约束矩阵法的基本思想是:事先建立一个语义约束矩阵，其中的元素分别表明具有某词性的词与具有另一词性的词的相邻是否符合语法，与属于另一语义类的词的相邻是否符合逻辑。另外，事先还要建立一个词库，其中包含所有可能出现的词，它们的各种可能的词性和语义类。对给定的待分词的汉字串S，按照某种确定的原则切取S的子串，若该子串与词库中的某词条相匹配，则从词库中取出该词的所有词性和语义类，然后根据约束矩阵判断这些词性和语义类中是否存在与己切分出来的相邻词相容的部分。论文网http://www.751com.cn/ 若有，则该子串是词，记下它的所有相容的词性和语义类作为后继切分的基础，继续分割剩余的部分，直到剩余部分为空;否则，该子串不是词，重新切取S的子串进行匹配。约束矩阵法的前提是存在对词的性质的分类和对词的语义的分类。但是，词的分类问题，特别是词的语义分类问题并不那么容易。按什么原则分?分到什么程度?都是尚待解决的问题。并且，解决问题的目的不同，分类结果也不同。在确定了词的分类后，约束矩阵的形成既可以以现有的语法和语义为基础，又可以对大语料库的分析结果为基础。在约束矩阵法中，词库中的词汇不但要记录词的内部表示，而且还要记录它的各种可能的词性和语义类。由于多词性现象在汉语中很普遍，所以每个词汇所需空间比较大。但是，约束矩阵法的一个优点是，不但完成了分词，同时还给出了词汇的词性和所属语义类。另一方面，约束矩阵法也有它的缺点，由于约束矩阵法只利用了词汇的约束关系，而实际汉语应用中经常存在跨词汇的约束关系，因此，它的作用相当有限。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

基于K-means的文本聚类算法研究第4页下载如图片无法显示或论文不完整，请联系qq752018766

上一篇文章： J2EE的综合测评系统设计

下一篇文章：构建专业内容服务网站的思路及相关技术

基于K-means的文本聚类算法研究 第4页

基于K-means的文本聚类算法研究第4页