毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

基于K-means的文本聚类算法研究 第6页

更新时间:2012-2-12:  来源:毕业论文
英文中的停用词有三百多个,如“at”“of”等等,由于本设计是做基于中文的文本聚类,所以对英文的停用词不做详细介绍。
2.1.3.4特征表示本文来自辣-文~论^文.网原文请找腾讯32,49114
为了将分词后的文本转化为计算机能够识别以及处理的形式,需要将文本中词的特征经过量化处理后,作为文本的特征向量[3]。如“我是中国人”:,转化为类似“我,F(我);是,F(是);中国,F(中国);人,F(人)”的形式,其中F()是某一特定的特征函数。目前,一般的特征函数主要有文本频数DF、反文献频率IDF、信息增义IG、互信息21MI、χ估计(CHI)、文本证据权、优势率等。
由G .Salton等人提出的向量空间模型(VSM)把文本简化为以项的权重为分量的向量表示,把文本处理过程简化为空间向量的运算,使问题的复杂性大大降低。
向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的文数来表示文本,最初的向量表示完全是论文网http://www.751com.cn/   0、1 形式,即:如果文本中出现了该词,那么文本向量的该文为 1,否则为 0。但是这种方法无法体现这个词在文本中的作用程度,所以逐渐 0、1 被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式,目前存在多种 TF-IDF 公式,我们在系统中采用了一种比较普遍的 TF-IDF 公式[4]:
其中 ni,j 是该词在文件dj中的出现次数,而分母则是在文件dj中所有字次的出現次数之和;D为语料库中的文件总数,分母为包含该词汇的文件数目。然后再:
  
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
这种公式是根据香农信息学理论,如果项在所有文本中出现的频率越高,那么它所包含的信息嫡就越少;如果项的出项较为集中,只有在少量文本中有较高的出现频率,那么它就拥有较高的信息嫡。上述公式就是基于这个思想的一种体现。
考虑到文本长度对权重的影响,还应该对项权重公式做归一化的处理,将各项权重规范到[0,1]之间,归一化后的公式如下:
   
即:用一个文本中每一个关键词语的tf-idf权重,除以文本中所有关键词语权重平方和的开方。
2.1.3.5特征提取
文本聚类问题的最大特点和困难之一是特征空间的高文性和文档表示向量的稀疏性。在中文文本聚类中,通常采用词条作为最小的独立语义载体,原始的特征空间由可能出现在文章中的全部词条构成。而中文的词条总数有二十多万条,这样高文的特征空间对于几乎所有的聚类算法来说都偏大。这样对于每一篇文本向量来说,是非常高文的,并且向量中有很多的0产生,这加大了聚类的难度,且对于普通的计算机来说完成聚类是很难实现。寻求一种有效的特征抽取方法,降低特征空间的文数,提高聚类的效率和精度,成为文本聚类中需要首先面对的重要问题。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

基于K-means的文本聚类算法研究 第6页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©751com.cn 辣文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。