3.1.1 TF-IDF算法 13
3.1.2 余弦定理 14
3.2 K-means算法 14
4 实验分析 16
4.1 文本分词 16
4.2 去除停用词 16
4.3 文本相似度向量的计算 16
4.4 聚类算法 16
4.5 结论分析 17
结 论 18
致 谢 19
参考文献 20
1 绪论
1.1 研究背景
1.1.1 数据挖掘的内容
随着信息量爆炸性增长,当我们面对海量数据时,手工的统计以及评估的速度十分缓慢,这就需要数据挖掘来提供帮助[ ]。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习和模式识别等诸多方法来实现上述目标。数据挖掘又称数据库中的知识发现,是指从数据库中的大量数据中揭示出隐含的具有重大潜在价值的信息的过程[ ][ ]。这种具有重大潜在价值的信息又被称为“知识”[ ]。这种信息可以帮助决策者做出正确判断,减少风险。
1.1.2 数据挖掘的意义
我们生活在数据时代。每天,各种商业、社会、科学和工程以及我们生活的方方面面的各种数据注入我们的网络、万维网以及各种数据存储设备,数据的增长如此之快,如果我们不使用一些方法来寻找知识,那么我们必然迷失在茫茫的数据海洋之中。数据挖掘就是这样一种有用的方法,这种方法已经在我们从数据时代大步跨入信息时代的历程中做出了巨大的贡献,同时,因为这是个年轻的,动态变化的,生机勃勃的领域,所以,数据挖掘将持续在信息社会中发挥作用。论文网
数据挖掘是从大量错综复杂的信息中获取隐含于其中的重要信息[ ],例如将顾客需求分类,聚类,欺诈甄别,潜在顾客需求的识别等。现在应用领域相当广泛,主要应用于零售业,网购业,金融业,银行业,医疗,征服的决策,企业财务管理,商业决策等[ ]。
数据挖掘包括了数据库系统、知识库系统、机器学习、统计学、人工智能等四个方面。数据挖掘是一个确定数据的有效性,时效性,实用性且可理解性模式的重要过程。 数据挖掘为了发现出有意义的样型或规则,必然要从大量数据中自动或是半自动的方法来进行探索,进行分析,从而寻找知识。数据挖掘正是处在知识创造过程中最核心的位置[ ]。
1.1.3 知识发现的过程
知识的发现过程由以下步骤迭代序列组成:
(1)数据清理(消除噪声和删除不一致的数据)
(2)数据集成(多重数据源组合,结果放在数据仓库中,一般和步骤一并称数据的预处理)
(3)数据选择(从数据库中提取相关数据)
(4)数据变换(将数据变成方便挖掘的形式)
(5)数据挖掘(利用智能方法获取数据模式)
(6)模式评估(根据兴趣度度量,识别代表知识的有趣的模式)
(7)知识表示(提供挖掘的知识给用户)[ ]
1.2 聚类分析