您现在的位置：毕业论文 >> 论文 >> 正文

基于K-means的文本聚类算法研究第3页

更新时间：2012-2-12: 来源：毕业论文

课题国内外研究现状
国外对于文本聚类的研究开展较早也较深入，很多聚类方法都是国外的科学家提出的。我国关于这方面的研究起步较晚，现在己有不少科研院所进行了相应的研究，如中国科学院计算技术研究所智能信息处理开放实验室、上海交通大学电脑应用研究所、东北大学等。中国科学院计算技术研究所智能信息处理开放实验室研制成功的多策略数据挖掘平台，支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能。还有一些公司致力于这个领域的研发，如北京拓尔思 (TBS)信息技术有限公司等。北京拓尔思(TRS)信息技术有限公司研发的TRS中文知识管理工具包 (TRS Chinese Knowledge management toolkit)为中文文本应用提供了开放的开发工具箱，它集成了TRS公司最新推出的多项中文处理技术，其中就包括了文本聚类。它聚类速度快，并支持中英文混合聚类。虽然文本聚类技术己经取得了很大的进展，但是仍然有很多的问题有待进一步研究和解决。
1.4 论文的目的以及主要研究内容
选择K-means文本聚类作为毕业设计的目的主要还是为了学习这方面的术，因为文本聚类是搜索的基础，本人希望对这方面有一定的了解。本文来自辣-文~论^文.网原文请找腾讯324^9114
论文主要研究的内容及成果包括:
(1)自适应选择最佳密度半径确定聚类中心。传统K-means聚类算法虽然高效、容易实现，但也存在一些缺点，比如K-means算法聚类效果受到初始聚类中心的影响很大。本文采用基于密度的概念确定聚类的初始中心。通过调整步长自动选择最佳的密度半径，确定最大的点密度，进而选择密度较大且合理的点作为初始聚类中心，使K-means算法在很大程度上跳出局部最优。此方法选择的初始聚类中心距离相隔较远，不至于分布集中，影响聚类效果。除此之外，经过排序后，打乱了对象的最初的输入顺序，使其总是按密度大小顺序输入，从而使算法对输入顺序不敏感，同时把孤立点放在最后考虑，克服孤立点对算法的影响，获得较好的聚类效果。
(2)实现原型系统。在Eclipse平台上用Java编程语言实现文本聚类原型系统，系统可以对文本进行预处理并高效聚类.

2 研究现状论文网http://www.751com.cn/
2.1 文本聚类
2.1.1 文本聚类的定义
文本聚类[1]就是将一个训练文献集分成若干称为聚类簇（cluster）的子集，每个聚类簇中的成员之间具有较大的相似性，而聚类簇之间的文本具有较小的相似性。文本分类一般是通过统计方法或知识工程方法来实现的。知识工程方法需要编制大量的推理规则，因此其开发费用相当昂贵。相比之下，统计方法由于其简单的机制，为大多数实用文本分类系统所采用。在基于统计的各种分类方法中,它们的共同点是从文本中提取词汇信息，并以特征向量的形式来表示文本。
2.1.2 文本聚类的应用本文来自辣-文~论^文.网原文请找腾讯3249'114
文本聚类的主要应用点包括[2]：
（1）文本聚类可以作为多文本自动文摘等自然语言处理应用的预处理步骤。其中比较经典的例子是哥伦比亚大学开发的多文本自动文摘系统News blaster。
该系统将新闻进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。
(2)对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search。Infonetware具有强大的对搜索结果进行主题分类的功能。另外，由Carrot Search开发的基于Java的开源Carrot2搜索结果聚合聚类引擎2.0版也是这方面的利用，Carrot2 可以自动把自然的搜索结果归类(聚合聚类)到相应的语义类别中，提供基于层级的、同义的以及标签过滤的功能。
(3)改善文本分类的结果，如俄亥俄州立大学的Y.C.Fang等人的工作
(4)文档集合的自动整理。如Scatter/Gather，它是一个基于聚类的文档浏览系统。
2.1.3 文本聚类的关键技术
在文本上进行挖掘与传统数据库上挖掘的一个重要的区别就是，文本是非结构化的数据。为了把数据挖掘的算法应用在文本对象之上，就必须对文本进行预处理，使文本最终表示成为一种结构化形式，同时需要保证这种结构化的形式能够充分体现出文本对象自己的特点，突出文本对象间的差异，以便于对文本的区分。文本的预处理技术对于文本挖掘来说是一个非常重要的环节。可以说，预处理的质量直接影响到了最终的挖掘结果。同时针对不同的挖掘目的，预处理的方法也存在着不同。但是基本上主要包括以下将要介绍的几个步骤。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

基于K-means的文本聚类算法研究第3页下载如图片无法显示或论文不完整，请联系qq752018766

上一篇文章： J2EE的综合测评系统设计

下一篇文章：构建专业内容服务网站的思路及相关技术

基于K-means的文本聚类算法研究 第3页

基于K-means的文本聚类算法研究第3页