关键词:文本聚类,K-Means,密度,半径
A document clustering algorithm based on K-means
Abstract:Since20 th century 50’s, people have proposed many kinds of clustering algorithms. They approximately may be divided into based on division and based on level two kinds. Among based on division clustering algorithms, what most famous is the K-Means type algorithm. Since it was published by MacQueen in1967 for the first time, it has become one of prevalent clustering algorithms in mathematical statistic, pattern recognition, machine learning and data mining etc, and has developed many kinds of derivative algorithms, formed the K-Means algorithm family.
However, K-means algorithm is very sensitive to the initial conditions., unstable results were often gotten while using traditional K-Means and its variants. This paper has made an important improvement to the choice of central points of the K-Means algorithm. Thereby optimize central points. This paper sorts each point according to density, through self-adoptively selecting optimized density radius to determine biggest point density. Selects the points which density is bigger as well as reasonable to take as initial central points, thus can optimize the choice of central points, enable K-Means algorithm to have a good start. The experimental results show tat the optimized algorithm can produce high quality and steady clustering results.
Key Words: Text Clustering, K-Means,density,radius
1 前言本文来自辣-文~论^文.网原文请找腾讯324,9114
1.1 课题研究的背景
我们现在已经生活在一个相当数字化的时代中,通信、计算机和网络技术正极大地影响着整个人类社会。然而海量信息既给人们带来方便,也带来了许多问题,使我们在惊叹信息爆炸的同时又不得不面对知识贫乏的苦恼。信息过量难以消化、信息真假难以辨别、信息安全难以保证、信息形式相异难以统一处理。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用率?”。面对这一挑战,数据挖掘技术应运而生,并得到长足的发展,显示出了强大的生命力。论文网http://www.751com.cn/
数据挖掘 (Data Mining)简称DM,也称为数据库中的知识发现(Knowledge discovery in database,KDD),是近年来随着数据库和人工智能发展起来的一门新兴的数据库技术。它是一个众多学科诸如人工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融合所形成的一个新兴的且具有广阔前景的领域。其处理对象是大量的日常业务数据,目的是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识。数据挖掘的挖掘对象不仅仅局限于数据库中的数据记录,而是可以应用于诸如空间数据、音频、视频、数据流、文本等各种数据对象之上的。
随着网络上Web页面的激增,以及文本数据库对各种形式文本统一管理和存储,仅仅依靠手工来对这些文本资源进行处理是不可能的。人们迫切需要由计算机自动地对这些大规模的文本集合进行有效的处理和分析,其中包括分类、聚类、自动摘要等等。于是,针对文本的数据挖掘方法应运而生。文本挖掘作为数据挖掘的一个分支,也是一个综合性的领域,它结合了信息检索、数学和数据挖掘等领域中的技术方法。之所以要提出这样一个单独的领域来对文本进行分析和处理,是出于文本信息具有其特殊性。
首先,文本信息数量庞大。在现实世界中,可获取的大部分信息是存储在文本数据库(或文档数据库)中的,它是由来自各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件和web页面等)的大量文档组成。出于电子形式的信息数量的飞速增长,如电子出版物、电子邮件、万文网等,文本数据库得到迅速的发展,统计表明80%的信息是以文本形式存在的。其中,网络上所包含的信息量尤为显著。据估计,Web己经发展成为拥有3亿页面的分布式信息空间,而且这个数字仍以每4至6个月翻一翻的速度增加。在这些海量的、异构的Web信息资源中,蕴涵着具有巨大潜在价值的知识。因此,对文本进行分析处理,成为了获取信息的一个必要手段。2321
[1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页